NARE biến reasoning tốn token thành các reflex thực thi quyết định O(1) - Open Source

Điểm nổi bật

Ý tưởng trung tâm: chuyển reasoning lặp lại từ sinh token của LLM sang executable reflex chạy cục bộ với độ trễ O(1).
Kiến trúc: 4-way routing gồm REFLEX, FAST, HYBRID và SLOW để quyết định bài toán nào cần suy nghĩ sâu, bài nào chỉ cần tái dùng tri thức.
Cơ chế học: hệ thống gom episodic memory, tới ngưỡng thì “consolidate” thành thuật toán Python với trigger() và execute().
Thông điệp thực dụng: đây là nỗ lực biến “agent biết học từ chính reasoning của mình” thành một cơ chế hạ tầng rõ ràng hơn.
Hàm ý thị trường: token optimization đang tiến từ cache thụ động sang compiler-like layer cho agent reasoning.

Biểu đồ

flowchart LR A[Stimulus mới] --> B[SLOW reasoning] B --> C[Episodic memory] C --> D[Consolidation] D --> E[Executable reflex] E --> F[O1 execution]

Tóm tắt

NARE, viết tắt của Non-parametric Amortized Reasoning Evolution, là một repo gợi nhiều suy nghĩ vì nó cố formalize một trực giác ngày càng phổ biến trong thế giới agent: nếu một lớp bài toán lặp đi lặp lại, để model “nghĩ lại từ đầu” ở mọi lượt là quá đắt. Thay vào đó, hệ thống nên lưu dấu reasoning, nén các mẫu tương đồng và cuối cùng chuyển chúng thành skill thực thi xác định.

Điều làm dự án này đáng chú ý là cách nó mô tả toàn bộ chu trình như một kiến trúc nhận thức có routing rõ ràng. Dù benchmark trong README còn nhỏ, ý tưởng nền rất hợp xu hướng: agent cạnh tranh dài hạn không phải agent gọi model nhiều nhất, mà là agent biết khi nào không cần gọi model nữa.

Chi tiết

Trong nhiều hệ thống agent hiện tại, mọi bài toán khó đều bị đẩy về cùng một cơ chế: tăng context, tăng sampling, tăng số vòng suy luận, rồi hy vọng model trả lời đúng hơn. Cách làm này hiệu quả ở giai đoạn thử nghiệm, nhưng nhanh chóng trở nên đắt và khó đoán khi đem vào production. NARE chọn một hướng khác. Nó xem reasoning như một khoản đầu tư có thể khấu hao. Lần đầu gặp một lớp bài toán, agent đi theo nhánh SLOW, suy nghĩ sâu, ghi lại quỹ đạo reasoning và lưu vào episodic memory. Khi đủ nhiều trường hợp tương tự tích tụ, hệ thống bước vào consolidation để trích ra heuristic và biên dịch nó thành một đoạn Python có thể kích hoạt lại như reflex.

Điểm hấp dẫn ở đây là repo không chỉ nói về cache kết quả. Nó nói về compile tri thức. Cache chỉ giúp trả lại đúng một lời giải đã gặp; reflex execution nhắm tới việc nhận ra cấu trúc tương đồng và giải nó bằng thuật toán cục bộ. Nếu làm được tốt, đây là bước nhảy lớn: agent không còn chỉ “nhớ” mà còn “thủ tục hóa” kinh nghiệm. Về mặt kỹ thuật, đó là một dạng chuyển từ symbolic trace sang executable skill.

Kiến trúc 4 nhánh REFLEX, FAST, HYBRID, SLOW cũng cho thấy tác giả đang cố tránh một cạm bẫy quen thuộc: không phải mọi bài toán đều nên ép về execution. Có bài chỉ cần cache, có bài cần reasoning kèm ngữ cảnh cũ, và có bài hoàn toàn mới phải quay về chain-of-thought sâu. Việc thêm confidence gating và cơ chế phạt khi skill sinh lỗi runtime là một chi tiết quan trọng, vì nó biến reflex từ một đường tắt mù quáng thành thành phần có thể bị hạ cấp an toàn.

Với bối cảnh agent engineering 2026, NARE đáng theo dõi vì nó chạm đúng áp lực lớn nhất: chi phí token và độ trễ khi workflow kéo dài. Các đội làm coding agent, support agent hay analytic agent đều đang tìm cách làm cho hệ thống “khôn lên theo thời gian” mà không chỉ bằng cách tăng model size. Dự án này đưa ra một câu trả lời rất rõ: hãy đối xử reasoning như nguyên liệu để biên dịch thành hạ tầng. Repo còn sớm và benchmark còn hạn chế, nhưng hướng đi của nó khá sắc. Nếu cộng đồng tiếp tục đào sâu kiểu kiến trúc này, agent sẽ ngày càng giống hệ thống biết học thành phản xạ hơn là chatbot khổng lồ phải nghĩ lại mọi thứ từ đầu.

Nguồn

GitHub repo