OpenAI ra mắt GPT-5.4 cho ChatGPT, API và Codex

Điểm nổi bật

1 triệu token ngữ cảnh: GPT-5.4 hỗ trợ context window tới 1M token cho các workflow dài hơi.
83,0% trên GDPval: OpenAI công bố GPT-5.4 thắng hoặc hòa chuyên gia trong 83,0% so sánh trên benchmark knowledge work.
75,0% trên OSWorld-Verified: hiệu năng computer-use vượt mức 72,4% của con người theo số liệu OpenAI nêu.
87,3% ở bài toán spreadsheet modeling: cao hơn mức 68,4% của GPT-5.2 trên benchmark nội bộ.
Giảm lỗi thực tế: OpenAI cho biết claim sai giảm 33% so với GPT-5.2 trên tập prompt người dùng đã gắn cờ lỗi thực tế.

Biểu đồ

flowchart LR A[GPT-5.4] --> B[Reasoning tốt hơn] A --> C[Coding mạnh hơn] A --> D[Computer-use native] A --> E[Tool search] B --> F[Công việc tri thức] C --> F D --> G[Tự động hóa workflow] E --> G F --> H[Năng suất chuyên nghiệp cao hơn] G --> H

Tóm tắt

OpenAI vừa đưa GPT-5.4 lên ChatGPT, API và Codex, đồng thời định vị đây là mô hình frontier cân bằng giữa reasoning, coding và khả năng thao tác công cụ trong môi trường làm việc thật. Điểm khác biệt không nằm ở một benchmark riêng lẻ mà ở cách hãng đóng gói GPT-5.4 như một “model for work”: xử lý bảng tính, tài liệu, trình chiếu, trình duyệt và phần mềm với ít vòng trao đổi hơn.

Thông điệp chiến lược ở đây khá rõ: cuộc đua AI đang đi từ “mô hình trả lời hay hơn” sang “mô hình hoàn thành việc hơn”. Khi OpenAI nhấn mạnh computer-use native, tool search và 1 triệu token context, hãng đang đẩy thị trường sang pha agentic workflow ở cấp doanh nghiệp, nơi chi phí token, độ tin cậy và số bước thao tác quan trọng không kém chất lượng ngôn ngữ.

Chi tiết

Việc OpenAI phát hành GPT-5.4 cho cả ChatGPT, API và Codex cho thấy hãng không còn tách biệt rạch ròi giữa mô hình dùng để trò chuyện, mô hình cho developer và mô hình cho tác vụ agent. Theo bài công bố, GPT-5.4 được xây trên các tiến bộ reasoning, coding và agentic workflows, đồng thời kế thừa năng lực mã hóa của GPT-5.3-Codex. Điều đáng chú ý là OpenAI không bán GPT-5.4 chỉ bằng lời hứa “thông minh hơn”, mà bằng khả năng làm được việc trong môi trường hỗn hợp gồm tài liệu, bảng tính, trình duyệt, phần mềm và các tool ecosystem lớn.

Các con số OpenAI công bố làm rõ cách hãng muốn định vị sản phẩm. Trên GDPval — benchmark mô phỏng knowledge work qua 44 nghề nghiệp thuộc 9 ngành đóng góp lớn vào GDP Mỹ — GPT-5.4 đạt 83,0% thắng hoặc hòa, cao hơn mức 70,9% của GPT-5.2. Trên OSWorld-Verified, mô hình đạt 75,0%, vượt mức 47,3% của GPT-5.2 và thậm chí nhỉnh hơn con số 72,4% của con người mà OpenAI viện dẫn. Ở Toolathlon, GPT-5.4 đạt 54,6% so với 46,3% của GPT-5.2; trên BrowseComp là 82,7% so với 65,8%. Bộ số liệu này cho thấy trọng tâm phát triển nằm ở năng lực sử dụng công cụ và điều hướng tác vụ nhiều bước, chứ không chỉ trả lời câu hỏi đơn lẻ.

Một chi tiết quan trọng khác là OpenAI nhấn mạnh cải thiện trên công việc văn phòng cụ thể. Hãng cho biết GPT-5.4 đạt 87,3% trên benchmark spreadsheet modeling kiểu analyst ngân hàng đầu tư junior, trong khi GPT-5.2 chỉ đạt 68,4%. Với bài toán tạo trình chiếu, người chấm thích đầu ra của GPT-5.4 68,0% số lần nhờ thẩm mỹ và mức độ đa dạng thị giác tốt hơn. Đây là thông điệp rất thực dụng: AI không chỉ để tra cứu hay brainstorm, mà để thay thế một phần các đầu việc vốn ngốn thời gian ở tầng middle office.

Về mặt hạ tầng sản phẩm, điểm có ý nghĩa lớn nhất là GPT-5.4 được mô tả như model general-purpose đầu tiên của OpenAI có computer-use native ở cấp state-of-the-art. Mô hình có thể thao tác máy tính, dùng Playwright, đọc screenshot, thực hiện lệnh chuột và bàn phím, đồng thời làm việc với hệ công cụ rộng hơn nhờ tool search. Khi số lượng tool tăng lên, chi phí prompt và độ rối context thường tăng theo; tool search là cách OpenAI giảm token overhead bằng việc chỉ nạp định nghĩa công cụ khi cần. Nếu triển khai tốt, đây là chìa khóa để agent doanh nghiệp không sụp chi phí khi kết nối CRM, file system, office suite, ERP, kho dữ liệu và app nội bộ cùng lúc.

Tác động chiến lược của GPT-5.4 nằm ở chỗ nó kéo chuẩn kỳ vọng của thị trường lên một nấc. Từ nay, một frontier model không chỉ bị hỏi “benchmark bao nhiêu” mà còn bị hỏi “tự làm được workflow nào, trong bao nhiêu bước, với chi phí ra sao”. Cơ hội lớn thuộc về doanh nghiệp có quy trình tri thức lặp lại: kiểm tra tài liệu, phân tích spreadsheet, chuẩn bị deck, đối chiếu thông tin, vận hành agent coding, hay xử lý back-office. Nhưng rủi ro cũng tăng theo: computer-use native đòi hỏi chính sách xác nhận hành động, giám sát tốt hơn và thiết kế guardrail cho các thao tác nhạy cảm. Nói ngắn gọn, GPT-5.4 không chỉ là một bản nâng cấp model; nó là lời tuyên bố rằng lớp cạnh tranh tiếp theo của AI nằm ở thực thi công việc, không chỉ ở đối thoại.

Nguồn

OpenAI

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn

Leave a Reply