Điểm nổi bật
- Engagement: khoảng 541 points và 282 comments theo trang front HN, đủ lớn để phản ánh tâm lý dùng model thực chiến chứ không chỉ tò mò release mới.
- Luận điểm chính 1: benchmark đang mất vai trò định đoạt vì hiệu quả phụ thuộc mạnh vào harness, tool inventory và cách prompt.
- Luận điểm chính 2: GLM, Qwen, Claude, Kimi bị so với nhau chủ yếu trên bài toán code và tài liệu, không còn ai tin chênh lệch SOTA là tuyệt đối.
- Dữ kiện cụ thể: nhiều bình luận nhắc trực tiếp chi phí Opus cao gấp nhiều lần GLM trong khi chất lượng thực tế ngày càng sít nhau.
Biểu đồ
Tóm tắt
Điều đáng chú ý ở thread này là Qwen 3.6 Max Preview chỉ là mồi lửa ban đầu. Rất nhanh sau đó, HN chuyển sang một cuộc tranh luận rộng hơn về cách đánh giá model coding trong 2026. Nhiều người cho rằng benchmark vẫn hữu ích để tham khảo, nhưng quyết định thật sự giờ nằm ở việc model chạy trong harness nào, có được cấp đúng tool hay không, và liệu chi phí duy trì có hợp lý cho workflow hàng ngày hay không.
Nói cách khác, HN đang phát đi một tín hiệu rõ. Cuộc đua model đã bước sang pha mà tên tuổi frontier không còn tự động thắng. Nếu model rẻ hơn, mở hơn, dùng được trong harness quen thuộc và cho kết quả đủ tốt ở bài toán hẹp, cộng đồng sẵn sàng đổi. Với người làm sản phẩm AI, đây là một chỉ dấu lớn về sự dịch chuyển giá trị từ model sang orchestration layer.
Chi tiết
Thread mở ra từ bài giới thiệu Qwen 3.6 Max Preview nhưng phần bình luận hầu như không sa vào việc ca ngợi benchmark hay thông số thuần túy. Thay vào đó, nhiều người chia sẻ kinh nghiệm rất cụ thể khi dùng Qwen, GLM, Claude Opus và một số model khác trong các tình huống coding hàng ngày. Điểm chung nổi bật là họ không còn nói theo kiểu “model A tốt hơn model B” một cách tuyệt đối. Họ nói “model này tốt hơn khi gắn với harness này”, hoặc “model kia rẻ hơn nhiều nhưng làm đủ việc mình cần”.
Một nhánh thảo luận quan trọng xoay quanh vai trò của harness. Có người nhấn mạnh rằng lý do họ chưa bỏ được Claude hay ChatGPT không hoàn toàn vì model, mà vì tool calling, file handling và trải nghiệm agent tốt hơn trong một số môi trường. Người khác phản biện rằng nếu cho Qwen hay GLM vào đúng harness, ví dụ các CLI coding agent có shell, file tools và workflow tử tế, chênh lệch lại không còn lớn như benchmark hàm ý. Đây là chuyển dịch rất đáng lưu ý, vì nó cho thấy giá trị ngày càng dịch khỏi bản thân model sang lớp giao diện hành động.
Một điểm lặp lại nhiều lần là chi phí. Bình luận về GLM xuất hiện dày đặc, không hẳn vì ai cũng tin GLM vượt Opus trong mọi mặt, mà vì nhiều người thấy chất lượng đã tiến đến mức “đủ dùng” trong phạm vi họ quan tâm, còn chi phí thì rẻ hơn rõ rệt. Khi một model rẻ hơn nhiều nhưng chỉ thua chút ít, hoặc thậm chí thắng ở vài tác vụ hẹp, người dùng cá nhân và các team nhỏ bắt đầu sẵn sàng đổi bên. Đây là logic rất thực dụng, và nó thường đến sớm hơn phản xạ của thị trường enterprise.
Thread cũng cho thấy benchmark đang bị nhìn bằng con mắt nghi ngờ hơn. Nhiều người nhận xét các model cho trải nghiệm rất khác nhau tùy task, thậm chí tùy cách prompt. Điều này làm cho bảng điểm chung ngày càng kém sức nặng trong quyết định mua dùng thật. Không phải benchmark vô dụng, nhưng nó không còn đóng vai trọng tài cuối cùng. Thứ ngày càng quan trọng là task fit, latency, khả năng dùng local hay qua API, và mức độ tích hợp với môi trường làm việc quen thuộc.
Từ góc nhìn chiến lược, thread này là tín hiệu rằng thị trường coding model đang tiến tới giai đoạn “comoditization có điều kiện”. Frontier model vẫn mạnh, nhưng lợi thế không còn đủ lớn để khóa người dùng nếu trải nghiệm harness, giá và mức mở không tương xứng. Với các đội xây sản phẩm AI, điều đó gợi ra hai hướng. Một là đừng đặt toàn bộ giá trị ở model ranking. Hai là ai kiểm soát được workflow, tool use và context management có thể giữ người dùng tốt hơn chính nhà cung cấp model. HN đang nói khá thẳng điều đó, chỉ là bằng ngôn ngữ trải nghiệm thực chiến thay vì ngôn ngữ chiến lược.