Dữ liệu TEC cho thấy LLM vẫn thua con người trong vòng lặp thử-sai thực tế

Điểm nổi bật

46 người tham gia, 58 tác vụ: nhóm tác giả xây nền tảng ghi lại hành vi giải quyết vấn đề theo nhiều lượt thử-sai thay vì chỉ chấm kết quả cuối.
5.370 quỹ đạo thử nghiệm, 41.229 webpage: quy mô dữ liệu đủ lớn để nhìn thấy cách con người đổi chiến lược sau mỗi lỗi.
3 phiên bản paper trong tháng 4/2026: bài được cập nhật nhanh trong tháng, cho thấy chủ đề đang được tinh chỉnh tích cực.
Kết luận trọng tâm: con người đạt độ chính xác cao hơn đáng kể so với LLM trong môi trường có phản hồi lỗi liên tục.
Ý nghĩa chiến lược: điểm nghẽn của AI không chỉ là trả lời đúng một lần, mà là học đúng từ thất bại giữa chuỗi thao tác thật.

Biểu đồ

flowchart LR A[Nhiệm vụ thực tế] --> B[Con người thử lần 1] B --> C[Nhận lỗi và phản tư] C --> D[Đổi chiến lược] D --> E[Cải thiện kết quả] A --> F[LLM thử theo heuristic] F --> G[Khó tận dụng lỗi] G --> H[Hiệu quả thấp hơn]

Tóm tắt

Paper TEC trên arXiv chạm vào một vấn đề rất đáng chú ý của làn sóng agent AI hiện nay. Phần lớn benchmark đang đo khả năng trả lời đúng hoặc hoàn thành tác vụ trong một lần chạy, trong khi công việc thật lại thường diễn ra theo chuỗi thử, sai, nhận phản hồi, rồi điều chỉnh chiến lược. Nhóm tác giả cho rằng dữ liệu cho kiểu hành vi này đang thiếu nghiêm trọng, khiến các hệ AI vẫn yếu ở những môi trường có ma sát thực.

Điểm đáng giá của TEC là thay vì chỉ thu câu trả lời cuối, họ ghi lại toàn bộ quỹ đạo thao tác của con người, gồm nhiều lần thử và cả phần tự phản tư sau khi gặp lỗi. Kết quả cho thấy con người vẫn vượt LLM rõ rệt ở năng lực tận dụng phản hồi sai để đi đến lời giải tốt hơn. Đây là tín hiệu quan trọng cho bất kỳ doanh nghiệp nào đang muốn đẩy agent AI vào các workflow dài hơi, nhiều bước và nhiều điểm gãy.

Chi tiết

Bài báo “A Collection of Human Trial-and-error Trajectories for Problem Solving” tập trung vào một năng lực nền tảng nhưng hay bị xem nhẹ trong đánh giá AI, đó là thử-sai có phản hồi. Trong thực tế, rất ít bài toán giá trị cao được giải xong ở lần đầu. Nhân sự vận hành, nghiên cứu, kỹ thuật, tài chính hay chăm sóc khách hàng đều thường phải thử một hướng, thấy lỗi, đọc lại bối cảnh, rút kinh nghiệm rồi đổi chiến thuật. Nếu AI chưa làm tốt vòng lặp đó, nó vẫn khó trở thành một tác nhân đáng tin cậy trong môi trường thật.

Nhóm tác giả giải quyết khoảng trống này bằng cách dựng một nền tảng annotation chuyên để ghi lại toàn bộ quá trình giải bài của con người. Họ thu dữ liệu từ 46 người trên 58 tác vụ, tạo ra 5.370 trial trajectories cùng phản tư sau lỗi trên 41.229 webpage. Cái hay ở đây không nằm ở số lượng thuần túy, mà ở cấu trúc dữ liệu. TEC không chỉ cho biết con người làm đúng hay sai, mà còn cho thấy sau khi sai họ đọc tín hiệu gì, sửa giả định nào, thay đổi bước đi ra sao. Đây là thứ mà nhiều benchmark hiện tại bỏ sót.

Kết quả quan sát của paper khá thẳng thắn, con người đạt độ chính xác cao hơn đáng kể so với LLM trong loại bài toán này. Điều đó gợi ra một kết luận quan trọng. Dù các mô hình ngôn ngữ hiện đại đã tiến rất xa ở suy luận, coding hay đọc hiểu dài ngữ cảnh, chúng vẫn còn yếu ở năng lực khai thác lỗi như một tín hiệu học ngay trong quá trình thao tác. Nói cách khác, AI hiện nay có thể giỏi “trả lời”, nhưng chưa chắc đã giỏi “tự sửa cách làm” khi môi trường bắt đầu phản kháng.

Về mặt chiến lược, phát hiện này đặc biệt quan trọng với xu hướng agentic AI. Khi doanh nghiệp kỳ vọng agent có thể thay người xử lý các quy trình nhiều bước, họ thường giả định rằng thêm tool-use và context dài là đủ. TEC cho thấy điều đó chưa đủ. Một agent đi qua môi trường thật sẽ luôn va vào lỗi: form không hợp lệ, dữ liệu thiếu, kết quả mâu thuẫn, đường dẫn thay đổi, hay phản hồi từ hệ thống ngoài kỳ vọng. Chất lượng của agent vì thế không chỉ nằm ở khả năng ra quyết định bước đầu, mà ở khả năng dùng lỗi như dữ liệu để điều chỉnh chiến lược kế tiếp.

Paper cũng mở ra một hướng phát triển thực tế hơn cho AI ứng dụng. Thay vì chỉ tối ưu benchmark tĩnh, các lab và đội sản phẩm có thể phải huấn luyện, fine-tune hoặc đánh giá agent trên dữ liệu quỹ đạo giàu phản hồi như TEC. Điều này có thể tác động đến cách xây benchmark, cách thiết kế memory, cách huấn luyện reflection loop và cả cách doanh nghiệp đo ROI của agent. Một tác nhân AI đáng tiền không phải là tác nhân hiếm khi sai, mà là tác nhân sai ít, sửa nhanh và không lặp lại lỗi ngu trong chuỗi công việc dài.

Vì vậy, TEC không chỉ là một bộ dữ liệu học thuật. Nó là lời nhắc rằng khoảng cách giữa demo ấn tượng và năng lực lao động thực vẫn còn nằm ở chỗ rất con người: biết thử, biết sai và biết đổi cách làm đúng lúc.

Nguồn

arXiv

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn

Leave a Reply