SWE-bench Verified 97% cho thấy cuộc đua agent bắt đầu chuyển sang bằng chứng có thể kiểm toán - Open Source

Điểm nổi bật

Tỷ lệ công bố: repo tuyên bố giải quyết 426/438 bài đủ điều kiện trong SWE-bench Verified, tương đương khoảng 97% tập eligible.
Cấu trúc pipeline: dự án tách rõ recon → craft → audit và tối đa 3 vòng lặp để quay lại khi chưa RESOLVED.
Nguyên tắc kiểm toán: tác giả nhấn mạnh mọi run đều được commit, kể cả lần thua, không force-push và không xóa lịch sử.
Tín hiệu cộng đồng: repo xuất hiện trên Show HN khoảng 2 giờ trước thời điểm quét slot và trực tiếp kéo tranh luận về độ tin cậy benchmark agent.

Biểu đồ

flowchart LR A[Recon chan doan read only] --> B[Craft sinh patch] B --> C[Audit chay full suite] C --> D[Official grader] D --> E[Commit artifact va lich su] E --> F[Benchmark co the kiem toan]

Tóm tắt

SWE-bench Verified đáng chú ý không chỉ vì con số 97%. Điều đáng theo dõi hơn là cách repo cố biến benchmark agent thành một đối tượng có thể kiểm toán: có pipeline rõ, có artifact, có history, có tiêu chí rerun và có phân tách giữa lỗi reasoning với lỗi hạ tầng. Đây là hướng đi khác hẳn kiểu khoe kết quả mà thiếu khả năng tái thẩm định.

Với đội ngũ xây agent coding, repo này là tín hiệu rằng cuộc đua đang dịch từ “model nào giải được nhiều hơn” sang “hệ thống nào chứng minh được quá trình tạo ra kết quả”. Khi doanh nghiệp bắt đầu đánh giá agent cho use case production, khả năng audit sẽ quan trọng gần ngang với tỷ lệ win.

Chi tiết

README của dự án nói khá thẳng: điểm mấu chốt không phải là điểm số, mà là việc người khác có thể clone repo, chạy đúng quy trình trên đúng bộ benchmark và đối chiếu artifact với cách chấm chính thức. Tuyên bố đó nghe có vẻ mang tính trình diễn, nhưng thực ra chạm đúng điểm yếu lớn của làn sóng benchmark agent hiện nay. Rất nhiều công bố đưa ra headline đẹp, trong khi lớp bằng chứng phía sau mỏng: ít log, ít khả năng tái lập, không rõ rerun policy và thường lẫn lộn giữa thắng nhờ reasoning với thắng nhờ vận may hạ tầng.

Dự án này cố xử lý vấn đề đó bằng kiến trúc ba bước recon, craft và audit. Recon đóng vai trò chẩn đoán read-only để tái hiện lỗi và xác định nguyên nhân gốc. Craft tạo patch từ handoff rồi cho một codex subagent thách thức lại bản sửa trước khi lặp theo test gate. Audit chạy full suite, so với fail-on-base baseline và trả verdict RESOLVED hoặc NOT_RESOLVED. Khi audit không xác nhận, driver có thể quay lại recon hoặc craft tối đa ba vòng. Cách chia này khiến repo giống một quy trình kỹ thuật hơn là một demo đơn lần.

Quan trọng hơn, tác giả nhấn mạnh chính sách lưu vết: mọi run đều được commit, kể cả run thua; rerun chỉ dành cho lỗi ngoại sinh như box-death hay contention; scoreboard được tái tạo từ các file summary của official grader chứ không dựa vào lời tuyên bố trong prose. Với người làm nền tảng agent, đây là thông điệp đáng chú ý: benchmark tốt không chỉ là benchmark cao, mà là benchmark có thể bị soi mà vẫn đứng vững.

Dĩ nhiên, repo cũng tự thừa nhận giới hạn. Tác giả nói thẳng SWE-bench Verified đã bị training-data contamination với các model hiện đại, nên kết quả là một capability configuration/leaderboard entry chứ không phải bằng chứng khoa học sạch về nhân quả. Chính sự thừa nhận giới hạn này lại làm dự án đáng tin hơn. Nó cho thấy tác giả hiểu rằng trong agent evaluation, minh bạch về điều chưa giải quyết đôi khi quan trọng ngang kết quả đã đạt.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn