RLM thử nghiệm đệ quy hóa context siêu dài cho language model - Open Source

Điểm nổi bật

Stars: khoảng 3.471 sao trên GitHub, nổi bật trong nhóm Python trending.
Định vị: inference engine cho Recursive Language Models, xử lý context dài qua cơ chế gọi đệ quy.
Khả năng sandbox: hỗ trợ local, Docker và nhiều sandbox cloud như Modal, Prime, Daytona, E2B.
Hậu thuẫn học thuật: gắn trực tiếp với paper arXiv về Recursive Language Models từ nhóm MIT OASYS.

Biểu đồ

flowchart LR A[Prompt dai va phuc tap] --> B[RLM runtime] B --> C[Phan ra thanh bai toan con] C --> D[Goi lai model de quy] D --> E[REPL va sandbox thuc thi] E --> F[Tong hop ket qua cuoi]

Tóm tắt

RLM là một dự án thú vị vì nó đánh vào một câu hỏi cốt lõi của hệ sinh thái LLM: khi bài toán hoặc ngữ cảnh quá dài, có nhất thiết phải chờ context window lớn hơn hay không. Thay vì làm vậy, RLM đề xuất để model tương tác với ngữ cảnh như một biến trong môi trường REPL, tự chia nhỏ vấn đề và gọi lại chính nó theo dạng đệ quy.

Nếu hướng này thành công ở quy mô thực tế, nó mở ra một lối đi khác với cuộc đua “cửa sổ ngữ cảnh càng lớn càng tốt”. Thay vì nhồi tất cả vào một lượt suy luận, RLM biến inference thành một quy trình có cấu trúc hơn, có thể quan sát trajectory và có thể thay sandbox theo nhu cầu an toàn.

Chi tiết

README của dự án mô tả Recursive Language Models như một inference paradigm mới cho phép model xử lý context gần như vô hạn bằng cách khám phá, phân rã và gọi đệ quy lên chính mình. Thay cho lời gọi quen thuộc kiểu llm.completion(prompt, model), hệ thống chuyển sang rlm.completion(prompt, model), trong đó ngữ cảnh được đặt trong một môi trường mà model có thể tương tác. Đây là thay đổi đáng chú ý vì nó chuyển vai trò của model từ “đọc toàn bộ rồi trả lời” sang “điều phối một quá trình khám phá context có cấu trúc”.

Điểm mạnh của repo nằm ở chỗ nó không chỉ trình bày ý tưởng học thuật. Nhóm phát triển đã đóng gói thành một inference engine hỗ trợ nhiều backend model và nhiều loại sandbox. Người dùng có thể chạy local, Docker hoặc các sandbox cloud như Modal, Prime, Daytona, E2B. Điều này rất quan trọng, vì ngay khi để model thực thi code hoặc thao tác môi trường để khám phá context, câu chuyện an toàn và cô lập thực thi trở thành bắt buộc.

Từ góc nhìn ứng dụng, RLM có thể hữu ích cho các bài toán cần reasoning nhiều bước trên tài liệu dài, codebase lớn hoặc môi trường có cấu trúc. Thay vì ném toàn bộ ngữ cảnh vào một prompt rồi hy vọng model tự tóm đúng phần liên quan, RLM cho phép quá trình truy vấn diễn ra theo từng nhánh, từng sub-call. Nói cách khác, nó gần hơn với idea “search over context” hơn là “consume all context at once”. Đây là hướng rất đáng chú ý khi chi phí suy luận và giới hạn attention vẫn là nút thắt của nhiều hệ thống agent.

Dự án cũng cho thấy sự giao thoa thú vị giữa research và runtime. Có paper, có blog, có visualizer để xem trajectory và có logging JSONL để phân tích đường đi của các sub-call. Điều này khiến RLM không chỉ là một thư viện để chạy thử, mà còn là môi trường tốt cho người nghiên cứu agentic inference quan sát model thật sự làm gì trong các vòng phân rã tác vụ.

Hạn chế là đây vẫn là dự án sớm, đòi hỏi người dùng hiểu rõ môi trường, sandbox và cách cấu hình backend. Ngoài ra, đệ quy hóa reasoning không tự động bảo đảm câu trả lời tốt hơn, nó chỉ mở một không gian thiết kế mới. Dù vậy, chính vì nó không đi theo lối mòn tăng context window, RLM là repo đáng theo dõi. Nó nhắc rằng tương lai của LLM có thể không chỉ nằm ở model lớn hơn, mà còn ở runtime thông minh hơn.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn