GPT-5.4 mini và nano đẩy tốc độ mô hình nhỏ lên mặt bằng mới
Điểm nổi bật
- Nhanh hơn hơn 2 lần: OpenAI cho biết GPT-5.4 mini chạy nhanh hơn GPT-5 mini trên nhiều workload.
- 400k context window: GPT-5.4 mini hỗ trợ ngữ cảnh dài 400.000 token.
- 54,4% SWE-Bench Pro: mini tiến sát mức 57,7% của GPT-5.4 đầy đủ.
- 72,1% OSWorld-Verified: mini gần chạm 75,0% của bản lớn, vượt xa GPT-5 mini ở 42,0%.
- Giá nano rất thấp: GPT-5.4 nano có giá 0,20 USD/1M input token và 1,25 USD/1M output token.
Biểu đồ
Tóm tắt
Nếu GPT-5.4 là thông điệp về mô hình frontier cho công việc phức tạp, thì GPT-5.4 mini và nano là thông điệp về kinh tế vận hành. OpenAI đang cho thấy lớp tăng trưởng tiếp theo của AI không chỉ đến từ model lớn hơn, mà từ cách phối hợp model lớn với model nhỏ nhanh hơn, rẻ hơn và đủ giỏi để gánh các tác vụ con.
Bản mini đặc biệt đáng chú ý vì tiến rất sát model lớn ở một số benchmark cốt lõi, nhất là coding và computer use. Điều đó mở đường cho kiến trúc “manager + subagent” trong sản phẩm doanh nghiệp: model lớn lập kế hoạch, model nhỏ xử lý tác vụ hỗ trợ hàng loạt. Đây là logic kinh tế AI thực dụng hơn nhiều so với tư duy chỉ nâng cấp model trung tâm.
Chi tiết
OpenAI mô tả GPT-5.4 mini và nano là hai model nhỏ mạnh nhất của hãng đến nay. Trọng tâm của đợt phát hành này không phải sự phô diễn sức mạnh tuyệt đối, mà là hiệu suất trên mỗi đơn vị độ trễ và chi phí. Trong bối cảnh doanh nghiệp ngày càng muốn nhúng AI sâu vào workflow thay vì dùng kiểu thử nghiệm, thông số cost-performance trở thành tiêu chí quyết định để một tính năng có thể bật mặc định cho hàng nghìn hoặc hàng triệu lượt gọi mỗi ngày hay không.
GPT-5.4 mini là điểm sáng nhất trong nhóm. OpenAI cho biết model này cải thiện đáng kể so với GPT-5 mini ở coding, reasoning, multimodal understanding và tool use, đồng thời chạy nhanh hơn hơn 2 lần. Trên SWE-Bench Pro, mini đạt 54,4%, không cách quá xa mức 57,7% của GPT-5.4 đầy đủ. Trên Terminal-Bench 2.0, mini đạt 60,0% so với 75,1% của model lớn; Toolathlon đạt 42,9% so với 54,6%; GPQA Diamond đạt 88,0% so với 93,0%. Đáng chú ý nhất là OSWorld-Verified: mini đạt 72,1%, gần bằng 75,0% của model lớn và bỏ xa GPT-5 mini ở 42,0%. Với các sản phẩm có giao diện phức tạp, đây là tín hiệu rất mạnh rằng mô hình nhỏ không còn chỉ dùng cho tác vụ đơn giản.
Ở tầng kiến trúc hệ thống, OpenAI gợi ý một mô hình triển khai rất đáng chú ý: GPT-5.4 đóng vai trò điều phối, còn mini xử lý các subtasks như tìm trong codebase, rà file lớn, đọc tài liệu phụ trợ hoặc thực hiện thao tác hỗ trợ song song. Đây là mô thức tương đồng với cách các đội kỹ thuật tối ưu chi phí compute trong hệ thống phân tán: không đưa mọi thứ lên “máy mạnh nhất”, mà phân tầng tài nguyên theo độ khó của việc. Nếu mô hình này được áp dụng rộng, thị trường phần mềm AI sẽ chuyển từ “một model làm tất cả” sang “dàn nhạc model” có phân công rõ ràng.
GPT-5.4 nano lại phục vụ một lớp use case khác: classification, extraction, ranking và coding subagents đơn giản. Với mức giá 0,20 USD cho 1 triệu input token và 1,25 USD cho 1 triệu output token, nano nhắm thẳng vào các workload vốn trước đây khó mở rộng vì economics không đẹp. Trong rất nhiều sản phẩm doanh nghiệp, phần lớn truy vấn thực tế không cần model mạnh nhất; chúng cần model đủ ổn định, nhanh và rẻ để làm sạch dữ liệu, gắn nhãn, định tuyến ticket, chấm mức ưu tiên, đọc ảnh màn hình hoặc thực hiện các bước phụ trước khi escalates lên model lớn hơn.
Bản thân ngữ cảnh 400k token của mini cũng đủ rộng cho nhiều workflow doanh nghiệp cỡ vừa: phân tích log dài, đối chiếu hợp đồng, đọc tài liệu dự án, hoặc hỗ trợ coding trên module lớn. Khi kết hợp với tool use, web search, file search, computer use và skills, mini trở thành công cụ rất thực dụng cho các agent có nhiệm vụ rõ ràng. Đây là khác biệt lớn so với thế hệ “mini model” trước đây vốn thường bị xem như bản cắt giảm quá mạnh để dùng production cho việc nghiêm túc.
Ý nghĩa chiến lược của lần ra mắt này là OpenAI đang bình thường hóa kiến trúc đa mô hình. Doanh nghiệp sẽ ngày càng được khuyến khích nghĩ theo bài toán phân bổ: việc gì cần frontier model, việc gì đủ dùng mini, việc gì nên giao cho nano. Cơ hội từ đây là chi phí AI có thể giảm mạnh mà chất lượng tổng thể của hệ thống vẫn tăng nếu orchestration tốt. Nhưng rủi ro cũng hiện diện: hệ thống nhiều lớp model đồng nghĩa kiểm thử, routing, observability và quản trị lỗi trở nên phức tạp hơn. Tóm lại, mini và nano không chỉ là bản giá rẻ; chúng là mảnh ghép để AI đi từ thử nghiệm sang vận hành ở quy mô lớn.