Điểm nổi bật
- Engagement: thread có nhiều nhánh tranh luận sâu về chi phí tìm lỗi, độ nhiễu khi quét toàn codebase và mức fairness của prompt.
- Luận điểm chính 1: phe ủng hộ cho rằng nếu model nhỏ đủ rẻ và đủ chính xác thì có thể chạy nhiều vòng để thay thế một phần nhu cầu dùng model frontier đắt đỏ.
- Luận điểm chính 2: phe phản đối nói phép thử bị “gợi bài”, vì đã cô lập hàm lỗi và cung cấp ngữ cảnh quá nhiều nên không phản ánh năng lực rà soát thực tế.
- Luận điểm chính 3: nhiều bình luận quay lại câu hỏi quan trọng nhất là false positive rate, không phải chỉ tìm đúng một bug minh họa.
Biểu đồ
Tóm tắt
Chủ đề trên Hacker News xoay quanh bài viết cho rằng các model nhỏ cũng có thể phát hiện một số lỗ hổng tương tự Mythos. Thay vì tranh cãi theo kiểu “model nào mạnh hơn”, cuộc thảo luận nhanh chóng chuyển sang hai biến số thực dụng hơn nhiều: chi phí quét ở quy mô lớn và độ nhiễu khi tìm lỗi trong codebase thật.
Điểm hấp dẫn của thread là cả hai phía đều có lý. Một bên cho rằng nếu model nhỏ đủ rẻ, có thể dùng làm lớp sàng lọc sơ bộ rồi chuyển các trường hợp nghi vấn cho model đắt hơn xác minh. Bên kia phản biện rằng thử nghiệm hiện tại không công bằng vì đã chỉ đúng hàm dễ tổn thương, rút gọn bớt nhiễu và cung cấp thêm bối cảnh. Nói cách khác, họ cho rằng small model mới chỉ chứng minh khả năng xác nhận một bug đã được đưa vào spotlight, chưa chứng minh năng lực đi tìm kim trong đống rơm.
Chi tiết
Nhánh bình luận đầu tiên bám vào economics. Một số người trích luôn chi tiết Mythos tốn gần 20.000 USD qua hàng nghìn lượt chạy để tìm nhiều phát hiện, trong khi ví dụ với model nhỏ tập trung vào một lát cắt hẹp hơn. Từ đây, họ đặt câu hỏi: nếu mô hình nhỏ rẻ hơn nhiều bậc độ lớn, liệu có thể dùng nó như lớp đầu trong pipeline bảo mật, quét hàng loạt rồi để model lớn xác nhận? Đây là lập luận rất mạnh trong bối cảnh doanh nghiệp không cần một hệ thống “thông minh nhất”, mà cần một hệ thống có cost-to-signal ratio tốt nhất.
Tuy nhiên, phe phản biện nhấn vào setup thử nghiệm. Họ chỉ ra prompt đã cô lập chính xác hàm có lỗi, thêm ngữ cảnh kiến trúc, giải thích trường dữ liệu nào tới từ network packet và thậm chí loại bỏ bớt nhiễu trong hàm gốc. Theo họ, việc hỏi model “đoạn code này có bug không?” sau khi đã chĩa đèn vào đúng chỗ là một bài toán khác hẳn việc quét hàng chục nghìn file để tìm bug thật. Chính vì vậy, tuyên bố small model “cũng làm được như Mythos” bị coi là phóng đại. Một số bình luận còn gọi đây là khác biệt giữa gold-mining trên cả lục địa với việc được chỉ thẳng vào một mảnh đất nhỏ rồi hỏi có vàng không.
Điểm thú vị là tranh luận không dừng ở capability mà quay về false positive rate. Nhiều người thừa nhận small model có thể tìm trúng bug khi được đặt đúng ngữ cảnh, nhưng câu hỏi doanh nghiệp quan tâm là sau khi quét một codebase lớn, nó tạo ra bao nhiêu cảnh báo rác. Nếu 9.500/10.000 cảnh báo là sai thì dù rẻ đến đâu, pipeline vẫn vô dụng vì đội ngũ con người sẽ chìm trong noise. Ngược lại, nếu small model đủ chính xác để loại trừ bớt false positive, nó sẽ cực kỳ hấp dẫn vì giá rẻ cho phép chạy lặp nhiều vòng hoặc biểu quyết đa mẫu.
Kết cục của thread không nghiêng hẳn về phía nào. Nhưng có một nhận định chiến lược đáng chú ý: ngành đang đi từ so sánh “model A thắng model B” sang so sánh “pipeline nào mang lại giá trị an ninh tốt hơn trên mỗi đô chi phí”. Ở góc nhìn đó, small model không nhất thiết phải vượt Mythos về độ toàn năng. Chỉ cần chúng đủ giỏi ở vai trò bộ lọc đầu vào, economics của bảo mật phần mềm bằng AI đã thay đổi đáng kể. Thread vì thế phản ánh khá rõ hướng dịch chuyển của thị trường AI ứng dụng: ít nói về magic hơn, nói nhiều hơn về harness, precision và cost structure.