Teaching a Tiny Model to Prove Hard Theorems

Điểm nổi bật

4B tham số: QED-Nano nhắm tới bài toán chứng minh hình thức khó với kích thước nhỏ hơn rất nhiều so với các hệ đóng hàng đầu.
3 giai đoạn huấn luyện: supervised fine-tuning, reinforcement learning và reasoning cache để kéo dài suy luận ở thời điểm chạy.
Vượt Nomos-1 và GPT-OSS-120B: theo abstract, mô hình vượt một số open model lớn hơn đáng kể về tạo chứng minh.
Tiệm cận Gemini 3 Pro: tín hiệu quan trọng cho thấy pipeline có thể bù cho chênh lệch quy mô mô hình.
Công bố code và dataset: giá trị của nghiên cứu nằm không chỉ ở benchmark mà còn ở khả năng tái tạo và mở rộng.

Biểu đồ

flowchart LR A[Model nhỏ 4B] --> B[SFT từ DeepSeek-Math-V2] B --> C[RL với rubric] C --> D[Reasoning cache] D --> E[Chứng minh toán khó tốt hơn] E --> F[Áp lực giảm chi phí suy luận]

Tóm tắt

Bài nghiên cứu về QED-Nano đáng chú ý vì nó chạm vào một trong những câu hỏi lớn nhất của ngành AI năm nay: liệu lợi thế có thuộc tuyệt đối về các mô hình ngày càng lớn, hay thuộc về những đội biết xây pipeline huấn luyện và suy luận tốt hơn? Kết quả được mô tả trong abstract nghiêng về phương án thứ hai.

Nếu xu hướng này được xác nhận rộng hơn, nó sẽ tác động mạnh đến kinh tế AI. Thay vì mặc định rằng bài toán khó đòi hỏi mô hình khổng lồ, thị trường có thể bước vào giai đoạn tối ưu hóa nơi mô hình nhỏ, mở và rẻ hơn bắt đầu đủ tốt cho nhiều nhiệm vụ reasoning chuyên sâu.

Chi tiết

QED-Nano là một paper đáng để theo dõi vì nó thách thức trực diện logic mở rộng quy mô vốn thống trị AI hai năm qua. Theo abstract, nhóm tác giả xây dựng một mô hình 4B được hậu huấn luyện cho các bài toán chứng minh ở mức Olympiad. Dù quy mô rất nhỏ so với nhiều hệ reasoning nổi bật trên thị trường, họ báo cáo rằng mô hình này vượt các open model lớn hơn như Nomos-1 và GPT-OSS-120B, đồng thời tiến gần khả năng của Gemini 3 Pro ở một số bài toán chứng minh, trong khi chi phí suy luận thấp hơn đáng kể.

Giá trị thật của nghiên cứu không chỉ nằm ở con số benchmark, mà ở cấu trúc pipeline. Nhóm dùng ba lớp huấn luyện bổ sung cho nhau. Bước đầu tiên là supervised fine-tuning để truyền phong cách viết chứng minh tốt thông qua dữ liệu chưng cất từ DeepSeek-Math-V2. Bước thứ hai là reinforcement learning với rubric-based rewards, tức đưa vào tiêu chí chất lượng rõ hơn thay vì chỉ học bắt chước. Bước thứ ba là reasoning cache, cho phép phân rã các chứng minh dài thành chu kỳ tóm tắt và tinh chỉnh lặp lại khi suy luận. Nhìn theo ngôn ngữ sản phẩm, đây là cách chuyển năng lực reasoning từ một lần suy nghĩ dài sang nhiều vòng suy nghĩ có cấu trúc.

Điều này có tác động đáng kể tới kinh tế suy luận. Trong nhiều ứng dụng doanh nghiệp, chi phí inference là điểm nghẽn lớn hơn cả độ thông minh tối đa của mô hình. Một mô hình nhỏ nhưng được trang bị pipeline reasoning tốt có thể tạo ra hiệu quả chi phí vượt trội. Nếu 4B đủ cạnh tranh ở các nhiệm vụ ngách khó như chứng minh toán, thì trong các nghiệp vụ có cấu trúc hơn, khoảng cách giữa model nhỏ và model rất lớn có thể còn thu hẹp nhanh hơn. Đó là lý do paper này quan trọng vượt ra ngoài lĩnh vực toán học.

Nó cũng chạm tới câu chuyện open vs closed. Một hạn chế lớn của các hệ reasoning hàng đầu hiện nay là pipeline nội bộ khó tái tạo. Các hãng đóng thường không công bố dữ liệu, scaffold và chiến lược test-time compute. QED-Nano nhắm thẳng vào điểm đó khi tuyên bố phát hành đầy đủ pipeline, model, dataset và code huấn luyện, đánh giá. Nếu cộng đồng xác thực được kết quả, nghiên cứu này có thể trở thành nền cho một làn sóng mở mới: không chỉ mở trọng số, mà mở cả quy trình sản xuất reasoning model.

Dĩ nhiên, cần giữ sự thận trọng. Abstract chưa cho biết toàn bộ giới hạn của benchmark, độ ổn định trên tập ngoài miền hay khả năng tổng quát hóa sang nhiệm vụ khác ngoài chứng minh. Ngoài ra, tiến gần hệ đóng trong một bài toán hẹp không đồng nghĩa có thể thay thế ngay ở quy mô sản phẩm đa nhiệm. Nhưng ngay cả với các giới hạn đó, tín hiệu chiến lược vẫn rõ: lợi thế AI không chỉ đến từ việc có nhiều GPU hơn. Nó còn đến từ việc biết biến test-time compute thành một hệ thống suy luận hữu hiệu.

Trong 6-12 tháng tới, dòng nghiên cứu này có thể thúc đẩy hai thay đổi. Thứ nhất, nhà phát triển sẽ nghiêm túc hơn với các mô hình nhỏ cho tác vụ reasoning chuyên biệt. Thứ hai, cạnh tranh sẽ dịch từ "mô hình to hơn" sang "pipeline thông minh hơn". Nếu điều đó xảy ra, đây sẽ là tin tốt cho hệ sinh thái mở, cho các phòng lab nhỏ và cho doanh nghiệp muốn triển khai AI ở quy mô kinh tế bền vững hơn.

Nguồn

arXiv

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn

Leave a Reply