ChatGPT Agent biến AI thành lao động số có thể hành động
Điểm nổi bật
- Một agent, nhiều công cụ: browser đồ họa, browser văn bản, terminal và API cùng tồn tại trong một hệ.
- 44,4 điểm Humanity’s Last Exam: khi chạy song song nhiều lượt và chọn kết quả tự tin nhất.
- 68,9% trên BrowseComp: cao hơn deep research 17,4 điểm phần trăm.
- 45,5% trên SpreadsheetBench: vượt xa mức 20% mà OpenAI nêu của Copilot in Excel.
- Có cơ chế takeover: người dùng có thể can thiệp ở các bước nhạy cảm và yêu cầu đăng nhập thủ công.
Biểu đồ
Tóm tắt
ChatGPT Agent là bước OpenAI hợp nhất khả năng nghiên cứu, duyệt web và thao tác công cụ vào một sản phẩm duy nhất. Thay vì hỏi đáp từng bước, người dùng có thể giao một mục tiêu trọn gói như phân tích đối thủ, làm slide, cập nhật báo cáo hay đặt lịch.
Với doanh nghiệp, đây là cú dịch chuyển quan trọng từ copilot sang operator. Giá trị không còn nằm ở việc AI gợi ý, mà ở chỗ nó có thể hoàn tất một chuỗi công việc có điều kiện, có dữ liệu sống và có giao diện thực tế.
Chi tiết
Bài công bố của OpenAI mô tả ChatGPT Agent như lớp hợp nhất giữa khả năng thao tác web của Operator, sức tổng hợp thông tin của Deep Research và năng lực hội thoại của ChatGPT. Điều đáng chú ý không phải chỉ là có thêm một mode mới, mà là cách công ty đóng gói toàn bộ câu chuyện “AI làm việc thay bạn” thành trải nghiệm sản phẩm cụ thể. Agent có thể truy cập website, lọc thông tin, chạy code, tương tác qua terminal, sử dụng connector và tạo đầu ra như slide hoặc spreadsheet có thể chỉnh sửa.
Nếu nhìn từ góc độ doanh nghiệp, đây là sự chuyển đổi từ AI hỗ trợ điểm chạm sang AI xử lý quy trình. Trong giai đoạn đầu của GenAI, phần lớn công cụ được dùng để tóm tắt, viết nháp hoặc trả lời câu hỏi. Nhưng ở những tác vụ như lập báo cáo tuần, tổng hợp dữ liệu đối thủ, chuẩn bị tài liệu họp hay theo dõi chỉ số kinh doanh, bottleneck không nằm ở câu chữ mà ở việc phải đi qua nhiều ứng dụng và nhiều bước thủ công. ChatGPT Agent cố xử lý đúng điểm nghẽn đó.
OpenAI đưa ra một loạt benchmark để chứng minh năng lực thực thi, gồm 68,9% trên BrowseComp, 45,5% trên SpreadsheetBench và cải thiện mạnh trên benchmark nội bộ cho nghiệp vụ kiểu analyst. Dù benchmark nội bộ cần được đọc thận trọng, thông điệp chiến lược rất rõ: OpenAI muốn thuyết phục khách hàng rằng AI giờ đủ sức để trở thành lao động số bán tự động, đặc biệt ở các bộ phận knowledge work.
Điểm quan trọng khác là cơ chế kiểm soát. Agent có thể hoạt động trên “máy tính ảo” riêng, nhưng người dùng vẫn có quyền takeover, dừng tiến trình hoặc xác nhận các bước có hệ quả. Đây là chi tiết then chốt nếu sản phẩm muốn đi vào doanh nghiệp. Không một công ty lớn nào muốn giao hoàn toàn quyền thao tác lịch, hộp thư, tài liệu hay hệ thống mua sắm cho AI mà không có lớp giám sát. OpenAI vì vậy không định vị ChatGPT Agent là tự trị hoàn toàn, mà là agent có người giám hộ.
Tác động thị trường của ChatGPT Agent nằm ở chỗ nó làm mờ ranh giới giữa phần mềm SaaS và nhân lực thao tác số. Khi một agent có thể đọc email, xử lý bảng tính, soạn slide và duyệt web để tổng hợp dữ liệu, doanh nghiệp sẽ bắt đầu tái cấu trúc các đầu việc hành chính, phân tích sơ cấp và vận hành văn phòng. Những nhóm công việc vốn phụ thuộc nhiều vào phối hợp công cụ có thể bị tự động hóa từng phần nhanh hơn dự kiến.
Tuy nhiên, rủi ro cũng tăng tương ứng. Prompt injection, dữ liệu nhạy cảm, thao tác nhầm và chất lượng quyết định vẫn là các vấn đề thật. Vì vậy, tác động gần hạn của ChatGPT Agent có lẽ không phải cắt giảm nhân sự ngay, mà là tái phân bổ vai trò: con người làm reviewer, người thiết kế quy trình và người chịu trách nhiệm cuối cùng, còn agent gánh phần thao tác lặp. Nếu mô hình này chứng minh được độ ổn định, thị trường phần mềm văn phòng và workflow automation sẽ chịu áp lực rất lớn trong 12 tháng tới.