Điểm nổi bật
- Mục tiêu rõ ràng: chặn hành vi nguy hiểm của agent ngay trước lúc gọi tool, không chỉ kiểm tra quyền truy cập tĩnh.
- Cơ chế quyết định: trả về 4 kết quả gồm
allow,deny,human_reviewvàcompute. - Chuỗi phòng thủ: repo mô tả pipeline gồm prompt-injection filter, confidence gate, policy evaluator và risk model.
- Khả năng tích hợp: có SDK cho TypeScript/Node.js và Python, hỗ trợ OpenAI, Anthropic, LangChain, LangGraph và MCP.
Biểu đồ
Tóm tắt
Lelu đáng chú ý vì nó không bàn về “agent nên thông minh hơn” mà bàn về “agent cần bị kiểm soát ở đâu”. Repo xem mỗi lần agent chuẩn bị thực thi một thao tác như xóa bản ghi, phê duyệt hoàn tiền hay kích hoạt công cụ bên ngoài là một điểm kiểm soát độc lập, nơi hệ thống phải quyết định có cho đi tiếp hay không.
Đó là một góc rất thực dụng. Nhiều đội hiện đã có OPA, Casbin hoặc IAM, nhưng những lớp đó chỉ biết ai có quyền gì. Chúng không biết prompt injection vừa chèn vào payload, model đang trả lời với độ tin cậy thấp hay agent đang cư xử lệch khỏi baseline. Lelu cố lấp đúng khoảng trống này bằng cách biến “hành vi agent” thành đối tượng có thể audit và có thể chặn.
Chi tiết
Điểm mạnh nhất của Lelu là repo định nghĩa khá mạch lạc vấn đề mà nó giải: các công cụ auth truyền thống tốt ở kiểm soát quyền truy cập, nhưng yếu ở tình huống agent hợp lệ về quyền lại bị thao túng về ngữ cảnh. Nếu một bot được phép duyệt hoàn tiền, hệ thống IAM bình thường sẽ thấy lệnh đó hợp lệ. Nhưng nếu lý do duyệt xuất phát từ prompt injection trong một trường văn bản, hoặc model biểu lộ độ tin cậy thấp, thì rủi ro lại nằm ngoài phạm vi IAM. Lelu chen đúng vào khe đó.
Pipeline mà repo mô tả khá đáng đọc với những đội đang triển khai agent vào tác vụ có hệ quả thật. Trước tiên là lớp xác thực API và shadow-agent detection để nhận diện các tác nhân chưa đăng ký. Sau đó là bộ lọc prompt injection theo nhiều tầng, từ exact match đến fuzzy và entropy. Kế tiếp là confidence gate: nếu model hoặc nguồn suy luận không đủ chắc chắn, hành động có thể bị hạ cấp hoặc chặn. Chỉ sau những bước đó policy evaluator và risk model mới hợp nhất tín hiệu để đưa ra một trong bốn kết quả: cho phép, từ chối, chuyển qua human review hoặc ép agent dùng “safer alternative”.
Giá trị vận hành của thiết kế này rất rõ. Thay vì yêu cầu đội sản phẩm tự cấy guardrail vào từng tool handler, Lelu biến guardrail thành một dịch vụ chung, có audit log, có hàng đợi human review và có tích hợp Slack, Teams hay PagerDuty. Điều đó tạo ra chuẩn kiểm soát nhất quán hơn cho các agent ở nhiều miền nghiệp vụ khác nhau. Với doanh nghiệp, đây là hướng quan trọng hơn nhiều so với việc thêm vài prompt “hãy cẩn thận”.
Dĩ nhiên dự án còn sớm. Số stars chưa lớn, nhiều giả định vẫn thiên về đội kỹ thuật hiểu rõ policy-as-code và biết cách đo confidence từ model hoặc từ hệ thống riêng. Ngoài ra, repo nhắc thẳng rằng không phải model nào cũng lộ signal đủ tốt cho confidence gate. Vì vậy, Lelu chưa phải giải pháp cắm vào là xong. Nhưng nó là ví dụ tốt cho xu hướng mới: lớp an toàn cho agent sẽ dần dịch từ prompt guideline sang runtime authorization có ngữ cảnh, có xác suất và có con người trong vòng kiểm soát.