Điểm nổi bật
- Độ mới của thread: bài lên HN khoảng 22 phút trước thời điểm quét.
- Quy mô benchmark: DeepSWE công bố 113 task, trải trên 91 repository và 5 ngôn ngữ.
- Luận điểm kỹ thuật chính: task được thiết kế để đòi 5.5x lượng code so với SWE-bench Pro trong khi prompt vẫn ngắn, ép agent phải tự khám phá codebase.
- Ý nghĩa tranh luận: benchmark chuyển trọng tâm từ “giải issue quen thuộc” sang long-horizon engineering tasks với verifier hành vi.
Biểu đồ
Tóm tắt
DeepSWE được HN chú ý vì đánh thẳng vào một điểm đau của thị trường coding agent: benchmark công khai ngày càng khó phản ánh đúng năng lực thật khi mô hình có thể đã “quen mặt” với issue, patch hoặc pattern chấm điểm. Nhóm tác giả DeepSWE chọn hướng ngược lại: tạo task mới từ đầu, giữ prompt ngắn hơn, nhưng buộc agent phải xử lý khối lượng thay đổi lớn hơn và đa dạng repo hơn.
Với cộng đồng kỹ thuật, đây không chỉ là chuyện thêm một leaderboard mới. Nó là tranh luận về cách thị trường đang ra quyết định mua công cụ AI: dựa vào điểm benchmark dễ marketing, hay dựa vào khả năng hoàn thành công việc kỹ thuật dài hơi trên codebase thật.
Chi tiết
Bài giới thiệu DeepSWE nêu bốn điểm khác biệt rất thực dụng. Thứ nhất là vấn đề contamination. Các benchmark lấy task từ commit hoặc pull request cũ rất dễ bị “rò nghiệm” vào dữ liệu huấn luyện hoặc ít nhất vào bộ nhớ gián tiếp của các agent framework. Khi đó, điểm cao chưa chắc đồng nghĩa với khả năng giải vấn đề mới; nó có thể chỉ phản ánh khả năng khôi phục một pattern đã từng xuất hiện công khai.
Thứ hai là cấu trúc prompt. DeepSWE cố tình để prompt gần với cách lập trình viên giao việc cho agent ngoài đời: ngắn, thiên về mục tiêu hành vi, ít chỉ dẫn thừa. Đây là thay đổi quan trọng, vì trong thực tế doanh nghiệp không phải lúc nào cũng có một issue đầy đủ tái hiện bug, chỉ rõ file, chỉ rõ hàm, chỉ rõ signature. Nếu benchmark quá “sạch” và quá nhiều gợi ý, nó vô tình đo khả năng làm theo hướng dẫn hơn là khả năng tự khám phá hệ thống.
Thứ ba là độ đa dạng của codebase. 91 repository trên 5 ngôn ngữ làm cho kết quả khó bị lệch quá mức về một nhóm framework nổi tiếng. Điều này đáng quan tâm với bên mua công cụ AI, bởi nhu cầu thật trong doanh nghiệp hiếm khi chỉ nằm ở React, Django hay một vài repo cực phổ biến. Năng lực bền vững phải thể hiện được trên nhiều phong cách code, nhiều mức độ tài liệu và nhiều triết lý tổ chức dự án.
Thứ tư là verifier theo hành vi. DeepSWE nhấn mạnh việc chấm dựa trên kết quả phần mềm, không dựa vào việc agent có vô tình tái tạo đúng cấu trúc mà tác giả benchmark mong muốn hay không. Với giới kỹ thuật, đây là nâng cấp lớn. Một agent đáng tiền không phải agent viết đúng “kiểu” của người ra đề, mà là agent hoàn thành thay đổi mà không phá vỡ hệ thống.
Ở cấp chiến lược, thread này quan trọng vì nó gợi ý cách đánh giá vendor AI trong doanh nghiệp. Nếu đội ngũ chỉ nhìn vào một con số trên bảng xếp hạng công khai, rất dễ mua nhầm thứ tối ưu cho demo hơn là tối ưu cho triển khai. DeepSWE không tự động giải quyết hết vấn đề, nhưng nó đẩy cuộc thảo luận sang chỗ trưởng thành hơn: benchmark nào mô phỏng gần nhất công việc thật, verifier nào ít thiên vị nhất, và khoảng cách giữa “điểm đẹp” với “ticket đóng được” thực sự là bao nhiêu.
Với CTO, bài học rút ra là nên bắt đầu xây bộ benchmark nội bộ hoặc ít nhất benchmark theo nghiệp vụ riêng. Thị trường có thể cung cấp tín hiệu ban đầu, nhưng quyết định dùng coding agent ở quy mô lớn phải dựa trên bài toán của chính doanh nghiệp: repo nào, ngôn ngữ nào, loại bug nào, ngưỡng phá vỡ regression ra sao. DeepSWE đáng chú ý vì nó thúc đẩy chính tư duy đó.