GPT-5.2 đẩy trần năng suất lao động tri thức với benchmark vượt chuyên gia
Điểm nổi bật
- 70,9% GDPval: GPT-5.2 Thinking thắng hoặc hòa chuyên gia ở benchmark knowledge work trải trên 44 nghề.
- 55,6% SWE-Bench Pro: điểm software engineering công khai mới, đồng thời đạt 80,0% SWE-bench Verified.
- 92,4% GPQA Diamond và 88,7% CharXiv: cho thấy model mạnh cả khoa học lẫn suy luận trên biểu đồ.
- 98,7% Tau2-bench Telecom: thể hiện năng lực gọi công cụ và phối hợp workflow nhiều bước ổn định hơn.
- 40-60 phút/ngày: mức tiết kiệm thời gian trung bình mà người dùng ChatGPT Enterprise hiện đã báo cáo, là nền so sánh để OpenAI định vị giá trị kinh tế của GPT-5.2.
Biểu đồ
Tóm tắt
OpenAI đưa GPT-5.2 ra thị trường như một model dành cho công việc chuyên nghiệp, không chỉ cho hỏi đáp tổng quát. Điểm nhấn không nằm ở một benchmark đơn lẻ mà ở mặt trận đồng thời: làm spreadsheet, slide, coding, đọc ảnh, giữ mạch suy luận trên ngữ cảnh dài và dùng công cụ trong workflow nhiều bước.
Điều quan trọng hơn với doanh nghiệp là OpenAI đang cố chứng minh AI không còn chỉ là “trợ lý câu chữ”. Khi model đạt 70,9% trên GDPval, tức thắng hoặc hòa chuyên gia ở tập nhiệm vụ knowledge work được mô tả rõ, thông điệp là AI đang tiến gần vai trò lao động số có thể nhận đầu việc tương đối hoàn chỉnh dưới giám sát của con người.
Chi tiết
Bài công bố GPT-5.2 cho thấy OpenAI đang chuyển hẳn trọng tâm từ “model thông minh hơn” sang “model sinh ra giá trị kinh tế đo được”. Cách hãng trình bày rất rõ: họ mở đầu bằng số liệu người dùng ChatGPT Enterprise hiện tiết kiệm trung bình 40-60 phút mỗi ngày, người dùng nặng tiết kiệm hơn 10 giờ mỗi tuần. GPT-5.2 được đặt trong logic nối dài đà tiết kiệm thời gian đó, nhưng ở cấp độ sâu hơn, với mục tiêu xử lý các tác vụ chuyên môn phức tạp hơn và tạo được đầu ra gần dạng sản phẩm hoàn chỉnh.
Điểm đáng chú ý nhất là GDPval. OpenAI mô tả đây là tập đánh giá knowledge work trên 44 nghề, trải từ các đầu việc như làm presentation, bảng tính, sơ đồ, kế hoạch hay phân tích nghiệp vụ. GPT-5.2 Thinking đạt 70,9% số cặp so sánh thắng hoặc hòa chuyên gia, trong khi GPT-5 trước đó chỉ ở 38,8%. Khoảng cách này đủ lớn để xem đây là bước nhảy vị thế, không chỉ là cải tiến biên. Nếu số đo này bám sát thực tế, doanh nghiệp sẽ bắt đầu dùng AI cho các phần việc vốn trước đây chỉ dám giao cho analyst, associate hay PMO cấp đầu.
Ở mặt trận kỹ thuật, GPT-5.2 Thinking đạt 55,6% trên SWE-Bench Pro và 80% trên SWE-bench Verified. Khác với benchmark Python hẹp hơn, SWE-Bench Pro cố gắng gần môi trường công nghiệp hơn, nghĩa là OpenAI đang nhấn mạnh model phù hợp refactor, debug, làm patch và xử lý issue xuyên nhiều ngôn ngữ hơn. Điều này quan trọng với đội sản phẩm vì AI coding chỉ thực sự có giá trị khi giảm được số vòng review và bớt gãy ở công đoạn cuối.
Về ngữ cảnh dài, OpenAI nói GPT-5.2 là model đầu tiên họ thấy chạm gần 100% ở biến thể 4-needle của MRCR trên ngưỡng 256k token. Đây là tín hiệu lớn cho các workflow kiểu rà soát hợp đồng dài, đọc báo cáo, tổng hợp transcript và so khớp nhiều tài liệu trong cùng một bài toán. Phần vision cũng mạnh lên rõ, với lỗi giảm khoảng một nửa trên suy luận biểu đồ và hiểu giao diện phần mềm. Với doanh nghiệp, đây là cửa mở cho các tác vụ đọc dashboard, hiểu ảnh chụp màn hình, kiểm tra tài liệu scan hay hỗ trợ vận hành front office, support, compliance.
Rủi ro vẫn còn. OpenAI thừa nhận model chưa hoàn hảo và cần kiểm tra lại ở bài toán quan trọng. Nhưng xét về định vị sản phẩm, GPT-5.2 là tín hiệu cho thấy thị trường đang đi sang giai đoạn AI không chỉ trả lời hay hơn, mà bắt đầu cạnh tranh trực tiếp với các vai trò lao động tri thức có quy trình rõ, dữ liệu đầy đủ và đầu ra chuẩn hóa. Doanh nghiệp nào có sẵn kho tài liệu, workflow số hóa và cơ chế kiểm duyệt tốt sẽ là nhóm hưởng lợi đầu tiên.