Statewright — dùng state machine để kiểm soát tool của agent - Open Source

Điểm nổi bật

Stars: khoảng 35 stars trên GitHub lúc ghi nhận; nhỏ nhưng vừa có Show HN trong cửa sổ quét.
Luận điểm cốt lõi: “Agents are suggestions, states are laws” — dùng state machine để giới hạn tool theo từng pha.
Hạ tầng: lõi viết bằng Rust, tích hợp với Claude Code, Codex, Cursor, opencode, Pi qua plugin hay hook.
Guardrails đáng chú ý: chặn tool ngoài state, giới hạn max_edit_lines, allow-list command test và có approval gate cho bước rủi ro.
Giá trị: phù hợp cho đội kỹ thuật muốn tăng agent reliability mà không phải phụ thuộc hoàn toàn vào prompt dài hay model lớn hơn.

Biểu đồ

flowchart LR A[Planning] --> B[Implementing] B --> C[Testing] C --> D[Completed] A --> E[Read only tools] B --> F[Edit tools có giới hạn] C --> G[Test commands allow-list]

Tóm tắt

Statewright là một repo nhỏ nhưng rất đúng thời điểm. Khi nhiều đội bắt đầu nhận ra vấn đề lớn nhất của coding agent không còn là “có sửa được bug không” mà là “có sửa đúng phạm vi, đúng lúc và không phá phần khác không”, state machine trở thành một câu trả lời hấp dẫn. Thay vì cố nhồi thêm hướng dẫn vào prompt, Statewright buộc agent phải đi qua những pha làm việc với bộ công cụ khác nhau.

Đây là một ý tưởng rất kỹ sư: giảm entropy của tác vụ trước khi đòi model suy luận giỏi hơn. Repo vì thế đáng đọc cả ở góc độ công cụ thực chiến lẫn góc độ triết lý thiết kế agent.

Chi tiết

README của Statewright nói rất thẳng: observability chỉ cho bạn biết agent sai ở đâu sau khi sự cố đã xảy ra; nếu muốn giảm sai, hãy thu hẹp không gian hành động ngay từ đầu. Dự án hiện thực hóa điều đó bằng state machine cho workflow agent. Ở state planning, agent chỉ thấy các tool đọc như Read, Grep, Glob. Sang implementing mới mở Edit, Write và giới hạn số dòng sửa hoặc số file được chạm. Đến testing thì chỉ cho Bash với allow-list các lệnh như pytest, cargo test hay npm test. Nếu agent cố gọi tool không được phép, lời gọi bị chặn ở lớp giao thức.

Đây là điểm khác biệt lớn so với rất nhiều “rule file” hay prompt template đang phổ biến. Statewright không chỉ khuyên agent nên làm gì; nó cưỡng chế phần nào agent được làm gì. Với các mô hình frontier, lợi ích có thể là giảm read-loop hoặc các bước thừa. Với local model nhỏ hơn, README thậm chí đưa vài kết quả benchmark nội bộ cho thấy state constraints có thể nâng tỷ lệ pass trên một tập SWE-bench nhỏ. Dù chưa phải benchmark học thuật quy mô lớn, các con số này đủ để repo có sức nặng thực dụng.

Một điểm hay khác là cách dự án nhìn approval gate và environment scoping. Guardrail không chỉ là chặn rm hay redirect, mà còn là giới hạn env vars, số lần lặp, điều kiện chuyển trạng thái và yêu cầu người dùng duyệt ở bước nhạy cảm. Với đội đang dùng coding agent trong môi trường thật, đây là những thứ có giá trị hơn nhiều so với một demo “agent sửa bug trong 46 giây”. Bởi ở production, vấn đề không nằm ở việc agent nhanh hay chậm, mà là agent có bị khóa trong hành lang an toàn đủ hẹp hay không.

Tất nhiên, Statewright cũng có giới hạn. Nếu workflow được định nghĩa quá cứng, agent có thể mắc kẹt. Với một số môi trường như Cursor, enforcement hiện vẫn ở mức advisory. Ngoài ra, giá trị của state machine phụ thuộc vào việc đội kỹ thuật có hiểu công việc của mình đủ để mô hình hóa thành state, transition và guard hay không. Nhưng ngay cả với các hạn chế đó, repo vẫn đáng chú ý vì nó cung cấp một lăng kính khác cho agent engineering: đừng chỉ hỏi model thông minh đến đâu, hãy hỏi hệ thống xung quanh model đã buộc nó hành xử có kỷ luật chưa.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn