AutoTTS — coding agent tự tìm chiến lược test-time scaling cho LLM - Open Source

Điểm nổi bật

Tín hiệu thời gian: repo vừa được submit lên HN Newest khoảng 1–15 phút trước khi crawl, nằm trọn trong cửa sổ slot 2.
Kết quả chính: project page nêu mức tiết kiệm khoảng 69,5% token so với SC@64 ở điểm vận hành β ≈ 0.5.
Chi phí discovery: một lượt tìm controller đầy đủ được mô tả tốn khoảng 39,9 USD và 160 phút wall-clock.
Khác biệt cốt lõi: không fine-tune backbone; thay vào đó để coding agent lặp lại việc chỉnh mã controller trong môi trường replay offline.

Biểu đồ

flowchart LR A[Trace suy luận đã cache] --> B[Môi trường replay] B --> C[Coding agent sửa controller] C --> D[Đánh giá accuracy-cost] D --> E[CMC tốt hơn]

Tóm tắt

AutoTTS đáng chú ý vì nó không cố tạo thêm một framework prompt cho reasoning, mà tái định nghĩa chính bài toán test-time scaling. Thay vì người nghiên cứu ngồi chỉnh tay heuristic như mở thêm nhánh, dừng ở đâu hay branch nào cần đi sâu, repo này đóng gói môi trường replay rồi để coding agent tự đề xuất và sửa controller qua nhiều vòng.

Điểm sáng của dự án là nó đưa “LLM improving LLMs” về một dạng khá thực dụng. Agent không chạm vào trọng số mô hình nền. Nó chỉ thay đổi chính sách điều phối compute trong lúc suy luận. Điều đó mở ra khả năng tối ưu chi phí mà không đòi hỏi vòng huấn luyện đắt đỏ – một hướng rất hợp với các đội muốn khai thác model sẵn có nhưng vẫn săn biên hiệu quả inference.

Chi tiết

Theo README và project page, AutoTTS bắt đầu từ một quan sát quan trọng: phần lớn cải thiện reasoning ở test time hiện nay vẫn dựa khá nhiều vào heuristic do con người thiết kế, như self-consistency, branching hay probing. Những heuristic đó thường hiệu quả, nhưng khó nói là tối ưu. AutoTTS vì thế biến toàn bộ bài toán thành một môi trường replay offline. Trước tiên, hệ thống thu sẵn nhiều trajectory suy luận từ backbone model, chia thành các segment cố định và lưu vào replay store. Sau đó, coding agent không cần gọi model thật trong lúc tìm kiếm chính sách; nó chỉ viết và sửa mã controller, rồi replay các lựa chọn trên kho dữ liệu đã cache để đo trade-off giữa độ chính xác và chi phí.

Cơ chế này đáng chú ý vì nó tách rời hai lớp vốn hay bị trộn vào nhau. Backbone model vẫn giữ nguyên. Cái được tối ưu là policy quyết định khi nào mở thêm branch, branch nào nên đào sâu, lúc nào nên dừng và khi nào nên bỏ nhánh. Repo mô tả kết quả cuối là Confidence Momentum Controller (CMC), một bộ điều khiển dùng EMA của độ tự tin để quyết định có tiếp tục đầu tư compute hay không. Đây là cách đặt bài toán rất “systems”: nếu training là CAPEX lớn, thì controller ở test time giống lớp tối ưu OPEX cho mỗi câu hỏi.

Với đội sản phẩm hoặc hạ tầng AI, thông điệp quan trọng là AutoTTS không chỉ là repo nghiên cứu. Nó gợi ra một hướng làm công cụ mới: tối ưu reasoning bằng code search, simulation và evaluation harness thay vì đụng vào weight. Điều này có thể đặc biệt hấp dẫn ở bối cảnh nhiều công ty dùng model đóng hoặc model mở lớn nhưng không có quyền hay nguồn lực để retrain. Nếu họ có replay logs đủ tốt, họ có thể thử săn chính sách inference tốt hơn cho workload riêng.

Tất nhiên, repo cũng có giới hạn rõ. Nó phụ thuộc mạnh vào chất lượng replay environment, vào benchmark cụ thể và vào khả năng generalize của controller sang bài toán mới. Một policy thắng trên AIME hay HMMT chưa chắc thắng trên workload doanh nghiệp. Nhưng ngay cả với rủi ro đó, AutoTTS vẫn đáng đọc: nó đại diện cho xu hướng agent không chỉ làm coding assistant, mà bắt đầu trở thành công cụ tự động khám phá chính sách tính toán cho AI system.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn