TREX tự động hóa vòng đời fine-tuning LLM bằng hệ đa tác nhân

Điểm nổi bật
- Phạm vi tự động hóa: TREX nhắm tới toàn bộ vòng đời fine-tuning, từ phân tích yêu cầu đến huấn luyện và đánh giá mô hình.
- Kiến trúc 2 lõi: Hệ gồm Researcher và Executor phối hợp theo mô hình đa tác nhân.
- Benchmark riêng: Nhóm tác giả xây dựng FT-Bench với 10 tác vụ từ các tình huống thực tế.
- Cách tiếp cận: Dùng search tree để tái sử dụng kết quả cũ, lên kế hoạch thử nghiệm và rút insight qua nhiều vòng chạy.
Biểu đồ
Tóm tắt
TREX là một tín hiệu đáng chú ý ở giao điểm giữa agentic AI và tự động hóa nghiên cứu. Thay vì chỉ dùng agent cho các tác vụ đơn lẻ như tìm paper hay viết code, paper này thử tự động hóa một workflow khó hơn nhiều, đó là toàn bộ quá trình fine-tuning mô hình ngôn ngữ.
Nếu hướng tiếp cận này thành công ở quy mô lớn, nó sẽ đẩy vai trò của con người trong nghiên cứu mô hình từ “làm từng bước” sang “đặt mục tiêu, kiểm soát ràng buộc và đánh giá chiến lược”. Đây là dịch chuyển quan trọng cho tương lai quan hệ người và AI trong công việc tri thức.
Chi tiết
Abstract của paper “Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration” cho thấy tham vọng lớn hơn nhiều so với lớp AI research assistant hiện nay. Tác giả lập luận rằng dù LLM đã giúp agent thực hiện được các tác vụ nghiên cứu riêng lẻ, việc tự động hóa quy trình phức tạp ngoài đời thực như huấn luyện và tinh chỉnh mô hình vẫn rất khó. Để xử lý, nhóm giới thiệu TREX, một hệ đa tác nhân gồm hai mô-đun cốt lõi: Researcher và Executor. Researcher phụ trách phân tích yêu cầu, nghiên cứu tài liệu và dữ liệu, đề xuất chiến lược huấn luyện. Executor phụ trách phần thực thi, tức chuẩn bị recipe dữ liệu, huấn luyện và đánh giá mô hình.
Điểm đáng chú ý nhất là cách nhóm mô hình hóa quy trình thử nghiệm nhiều vòng thành một cây tìm kiếm. Trong thực tế, fine-tuning không phải là một đường thẳng. Nhóm nghiên cứu phải thử nhiều biến thể tập dữ liệu, prompt, recipe, hyperparameter và tiêu chí đánh giá. Việc biểu diễn lịch sử thử nghiệm thành search tree cho phép TREX tái sử dụng kết quả cũ, chọn nhánh khám phá hứa hẹn hơn và rút insight cấp cao từ các vòng chạy trước. Nói cách khác, hệ thống không chỉ “chạy nhiều thí nghiệm”, mà còn học cách tổ chức không gian thử nghiệm.
Nhóm tác giả còn xây FT-Bench gồm 10 tác vụ từ các kịch bản thực tế, từ tối ưu năng lực nền tảng đến cải thiện hiệu suất ở domain cụ thể. Đây là thành phần quan trọng vì rất nhiều bài báo về agent mới dừng ở demo đẹp nhưng thiếu benchmark đủ sát công việc thật. Việc có benchmark riêng cho bài toán fine-tuning cho thấy họ đang cố biến câu hỏi “agent có thể tự tối ưu mô hình không?” thành một bài toán đo lường được.
Về ý nghĩa rộng hơn, TREX gợi mở một tương lai nơi AI không chỉ hỗ trợ nhà nghiên cứu ở lớp tra cứu tài liệu hay viết script, mà tham gia luôn vào chu trình giả thuyết, thí nghiệm, đánh giá và rút kinh nghiệm. Điều đó có thể nâng tốc độ nghiên cứu lên mạnh, nhất là với các tổ chức có nhiều bài toán fine-tuning nhỏ nhưng lặp đi lặp lại. Tuy nhiên, nó cũng đặt ra câu hỏi quản trị. Khi agent tự đề xuất recipe dữ liệu và chiến lược huấn luyện, ai chịu trách nhiệm nếu benchmark bị tối ưu lệch, dữ liệu có bias, hay kết quả không tái lập? Đây là nơi vai trò con người chuyển từ thao tác sang giám sát khoa học.
Ở cấp chiến lược, TREX không có nghĩa nhà nghiên cứu mô hình sắp biến mất. Ngược lại, nó cho thấy phần việc của con người đang dịch lên tầng thiết kế benchmark, kiểm soát chất lượng, đặt mục tiêu và đánh giá ngoại lệ. Càng nhiều workflow nghiên cứu được tự động hóa, năng lực cốt lõi càng chuyển sang câu hỏi đúng, ràng buộc đúng và đánh giá đúng. Đó là một trong những lát cắt rõ nhất của tương lai người và AI trong lao động tri thức chuyên sâu.