Agent-S mở khung computer-use agent vượt mốc human-level trên OSWorld - Open Source

Điểm nổi bật

Repo có khoảng 11.4k stars và chưa có bài trong source history, đủ lớn để xem như một benchmark công khai của mảng computer-use agent.
README công bố mốc 72.6% trên OSWorld với Behavior Best-of-N, vượt ngưỡng ~72% human performance mà nhóm nêu.
Dự án hỗ trợ Linux, macOS, Windows và cho phép ghép model điều phối với model grounding như UI-TARS.
Điểm đáng chú ý là Agent-S không chỉ là demo GUI agent; nó đã phát triển qua nhiều thế hệ S1 → S2 → S3 cùng paper, video và kết quả benchmark rõ ràng.

Biểu đồ

flowchart LR A[Ảnh màn hình và trạng thái máy] --> B[Agent-S lập kế hoạch] B --> C[Grounding model định vị hành động] C --> D[Điều khiển GUI như người dùng] D --> E[Benchmark trên OSWorld và arena]

Tóm tắt

Agent-S đáng theo dõi vì nó đại diện cho một chuyển động lớn hơn của thị trường AI: từ chat agent sang computer-use agent. Thay vì chỉ gọi API hoặc sửa file, Agent-S cố giải bài toán dùng máy tính như con người — quan sát giao diện, xác định mục tiêu, click, nhập liệu và phối hợp với môi trường local khi cần. Điểm làm repo này nổi bật không chỉ là mức độ mã nguồn mở, mà là việc nhóm tác giả gắn chặt nó với benchmark cụ thể.

Trong bối cảnh nhiều công ty đang đua làm “operator” hoặc “computer use”, Agent-S đóng vai trò tài sản công khai để cộng đồng kiểm chứng phương pháp, chi phí và tốc độ tiến hóa. Với người làm sản phẩm, đây là repo nên theo dõi không phải vì hype, mà vì nó cho thấy mặt bằng năng lực của GUI agent đang tăng nhanh tới đâu.

Chi tiết

README của Agent-S cho thấy đây không còn là một proof-of-concept đơn lẻ. Nhóm dự án đã xây cả lộ trình thế hệ sản phẩm: Agent S1, S2 rồi S3, mỗi lần đều gắn với bài blog, paper và kết quả đo lường. Cách trình bày đó rất quan trọng vì thị trường computer-use agent hiện nay đầy demo đẹp nhưng thiếu baseline đáng tin. Agent-S cố lấp khoảng trống ấy bằng số liệu: trên OSWorld, Agent S3 đạt 66% ở thiết lập 100 bước, và khi kết hợp Behavior Best-of-N thì lên 72.6%, vượt ngưỡng human-level mà nhóm tham chiếu. Đồng thời, dự án còn đưa thêm số trên WindowsAgentArena và AndroidWorld để chứng minh khả năng tổng quát hóa.

Về kỹ thuật, Agent-S đi theo kiến trúc tách lớp khá hợp lý. Một model chính lo lập kế hoạch và điều phối, còn lớp grounding nhận nhiệm vụ ánh xạ ý định thành tọa độ hoặc hành động trên giao diện, với gợi ý dùng UI-TARS cho phần này. Thiết kế đó phản ánh sự trưởng thành của mảng GUI agent: thay vì ép một model làm mọi thứ, hệ thống chia nhỏ vai trò để tối ưu tốt hơn cho từng phần. README cũng cho thấy dự án bắt đầu mở rộng sang local coding environment, nghĩa là agent không chỉ click UI mà còn có thể gọi Python/Bash cho các tác vụ phù hợp hơn bằng mã.

Từ góc nhìn chiến lược, Agent-S rất quan trọng vì nó đặt chuẩn mở cho một mảng đang được thương mại hóa rất nhanh. Khi các hãng lớn quảng bá operator hay desktop agent, cộng đồng cần repo kiểu này để so sánh: khả năng thật tới đâu, benchmark gì, giới hạn ở đâu, model grounding nào hợp lý, rủi ro bảo mật nào phát sinh khi agent điều khiển máy thật. README của Agent-S cũng không né cảnh báo: local env chạy code tùy ý, cần dùng trong môi trường tin cậy. Sự thẳng thắn đó làm repo đáng tin hơn nhiều demo chỉ phô diễn năng lực.

Dĩ nhiên, benchmark tốt không đồng nghĩa deployment dễ. GUI agent luôn va vào độ mong manh của giao diện, phân giải màn hình, độ trễ mạng, quyền hệ điều hành và rủi ro an toàn. Nhưng chính vì các khó khăn ấy, một repo công khai có dữ liệu, có paper và có code như Agent-S lại càng có giá trị. Nó không chỉ là một công cụ; nó là thước đo xem computer-use agent đang thực sự tiến tới mức nào.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn