Điểm nổi bật
- Engagement: 446 points, 216 comments trên Hacker News.
- Phe ủng hộ control flow: nhiều kỹ sư nói agent tự điều phối bị trượt việc sau khoảng vài chục bước, bỏ sót file hoặc lặp thao tác vô ích.
- Phe phản biện: một số ý kiến cho rằng mô hình mạnh hơn hoặc context/todo system tốt hơn có thể giảm lỗi mà không cần quá nhiều harness.
- Góc nhìn chi phí: nhiều bình luận nhấn mạnh chia nhỏ workflow giúp dùng model rẻ hơn nhưng vẫn đạt chất lượng ổn định.
- Kết luận nổi lên: deterministic scaffolding đang được xem là lớp bắt buộc nếu muốn đưa agent vào quy trình thật.
Biểu đồ
Tóm tắt
Bài viết gốc đặt vấn đề khá trực diện: agent AI không thiếu prompt, mà thiếu control flow. Thảo luận trên Hacker News nhanh chóng mở rộng từ một quan điểm kỹ thuật thành một cuộc trao đổi thực dụng giữa những người đã triển khai agent vào công việc thật, đặc biệt trong QA, coding workflow và orchestration nhiều bước.
Luận điểm chiếm ưu thế là: khi giao cho model quyền điều phối một tác vụ dài, hiệu năng có thể trông ấn tượng ở demo nhưng độ ổn định giảm rõ rệt trong môi trường production. Nhiều người cho biết chỉ cần thêm vòng lặp, điều kiện rẽ nhánh, kiểm thử và lưu trạng thái bằng code, agent trở nên đáng tin hơn nhiều. Một nhánh phản biện vẫn tin rằng model tốt hơn sẽ giải quyết phần nào bài toán này, nhưng ngay cả họ cũng thừa nhận harness là cách thực tế nhất ở thời điểm hiện tại.
Chi tiết
Điểm khiến thread này thu hút là nó không tranh luận ở mức khẩu hiệu kiểu “agent sẽ thay dev” hay “AI chỉ là hype”, mà đi rất nhanh vào một vấn đề triển khai cụ thể: ai nên nắm quyền điều phối workflow dài và nhiều bước — model hay code. Bình luận mở đầu có sức nặng vì đến từ người đang vận hành một QA agent phải duyệt khoảng 200 file requirements trong browser session. Họ mô tả rất rõ hiện tượng thường gặp: khi để prompt điều phối toàn bộ, agent bắt đầu bỏ sót file sau khoảng 30 file, có lúc test lặp lại một nhóm file, có lúc gặp lỗi ở một file rồi quay lại retest những file không liên quan. Đây là dạng thất bại không gây “crash” rõ ràng nhưng cực kỳ nguy hiểm vì làm giảm niềm tin vào kết quả.
Giải pháp họ áp dụng lại khá đơn giản: dựng một harness deterministic, trong đó mỗi test case được gọi riêng, kết quả lưu vào mảng hoặc file, và control flow nằm ở phần code chứ không ở prompt. Theo mô tả trong thread, thay đổi này khiến hệ thống “đáng tin hơn gấp nhiều lần”. Chính trải nghiệm rất thực tế này đã kéo theo làn sóng đồng tình từ nhiều kỹ sư khác. Nhiều người nói họ cũng nhìn thấy cùng một mẫu lỗi: model khá giỏi xử lý từng bước nhỏ, nhưng dễ mất trạng thái khi phải tự tổ chức một chuỗi hành động dài.
Một nhóm bình luận khác mở rộng luận điểm theo hướng kinh tế học công nghệ. Nếu workflow đã được chia thành các bước rõ ràng, doanh nghiệp không nhất thiết phải dùng model frontier đắt tiền cho mọi khâu. Họ có thể dùng model nhỏ hơn, rẻ hơn, hoặc thậm chí thay vài bước bằng logic thường, if/else, script, test runner. Ở đây xuất hiện một ý rất đáng chú ý: agent hiệu quả không nhất thiết là agent “thuần prompt”, mà là hệ thống kết hợp model với scaffolding phần mềm truyền thống. Điều đó cũng làm lung lay narrative của nhiều nền tảng agent-managed vốn muốn đẩy toàn bộ logic vào model.
Dĩ nhiên không phải mọi bình luận đều bi quan với khả năng tự điều phối của model. Có người nhắc rằng các hệ có todo list, context compaction hoặc graph-of-agents có thể cải thiện phần nào. Một số khác cho rằng benchmark hiện nay thường che giấu failure rate, chỉ nêu trường hợp thành công nên khiến thị trường đánh giá quá cao độ ổn định thực. Nhưng ngay cả khi thừa nhận mô hình sẽ tiếp tục khá lên, phần đông cuộc thảo luận vẫn đi tới cùng một kết luận thực dụng: nếu bài toán có giá trị kinh doanh thật, cần khả năng tái lập và kiểm soát chi phí, thì deterministic control flow vẫn là lớp kiến trúc không thể thiếu.
Thread này vì thế đáng chú ý hơn một bài “AI hot take” thông thường. Nó phản ánh một chuyển dịch quan trọng: cộng đồng kỹ thuật đang dần rời khỏi giai đoạn bị mê hoặc bởi demo prompt dài, để bước sang giai đoạn thiết kế agent như một hệ thống phần mềm nghiêm túc — có orchestration, guardrails, logging và decomposition rõ ràng.