Open Bias — biến RULES.md thành lớp thực thi chính sách cho agent AI - Open Source

Điểm nổi bật

Stars: 73 stars trên GitHub tại thời điểm crawl.
Ngôn ngữ: Python, giấy phép Apache-2.0, có website riêng tại openbias.dev.
Ý tưởng cốt lõi: đặt một proxy giữa ứng dụng và LLM provider để enforce RULES.md thay vì chỉ nhắc model “hãy làm đúng”.
Tính năng chính: block/intervene/shadow response, hỗ trợ nhiều engine đánh giá, và giữ latency thấp bằng cơ chế sync + async.

Biểu đồ

flowchart LR A[Ứng dụng gọi LLM] --> B[Open Bias Proxy] B --> C[Đọc RULES.md] C --> D[Engine đánh giá] D --> E[Block hoặc sửa phản hồi] E --> F[Phản hồi an toàn hơn cho người dùng]

Tóm tắt

Open Bias đi theo một hướng rất thực dụng cho làn sóng agent hiện nay: thay vì tin rằng prompt, system message hay AGENTS.md đủ để giữ model luôn tuân thủ, dự án biến chính sách thành một lớp enforcement đứng ngoài model. Repo được đẩy mạnh trên Hacker News trong khung giờ này, cho thấy cộng đồng agent engineering đang quan tâm rõ rệt tới bài toán “governance ở runtime”, không chỉ benchmark hay UX.

Điểm đáng chú ý là cách dự án định nghĩa lại RULES.md. Thay vì chỉ là tài liệu cho người đọc hoặc context cho model, RULES.md trở thành control surface có thể review bằng PR, version cùng code, rồi được Open Bias dùng để chặn hoặc can thiệp vào hành vi lệch policy trước khi nó chạm tới công cụ hay dữ liệu thật.

Chi tiết

Từ README, Open Bias tự mô tả là “Open Source Agent Alignment” với thông điệp rất thẳng: model coi instruction là context, không phải constraint. Đây là điểm đau mà hầu như team nào xây agent sớm muộn cũng gặp. Ban đầu chỉ có vài rule như “không xóa dữ liệu người dùng”, “không lộ giá nội bộ”, “phải xác minh danh tính trước khi thao tác”. Nhưng khi workflow nhiều bước, nhiều tool và nhiều tác nhân hơn, các rule kiểu prompt engineering bắt đầu bị suy giảm hiệu lực. Open Bias muốn tách lớp compliance ra khỏi lớp sinh ngôn ngữ.

Cách làm của dự án khá dễ hình dung. Ứng dụng không gọi thẳng provider nữa mà đi qua proxy openbias serve. Proxy này đọc RULES.md, đánh giá request/response ở các hook trước và sau khi model chạy, sau đó ánh xạ kết quả sang ba loại hành động: BLOCK để chặn, INTERVENE để sửa hoặc ép luồng xử lý, và SHADOW để quan sát mà chưa can thiệp mạnh. Đây là thiết kế hợp lý cho production vì không phải mọi vi phạm đều cần stop-the-world; có những rule có thể xử lý async ở vòng sau để giảm độ trễ.

README cũng cho thấy dự án không khóa người dùng vào một vendor. Nó cho phép dùng nhiều engine khác nhau cho các nhu cầu khác nhau: có cái để bắt workflow violation, có cái để bắt content safety, có cái để làm judge phức tạp hơn. Về mặt kiến trúc, đây là hướng đi đáng chú ý vì doanh nghiệp ngày càng muốn lớp governance độc lập với model chính. Nếu mô hình thay đổi từ Anthropic sang OpenAI sang Gemini, lớp rule không nên phải viết lại từ đầu.

Tất nhiên repo còn sớm: số star chưa lớn, hệ sinh thái plugin/rule-pack chưa dày, và team triển khai vẫn phải tự chuẩn hóa RULES.md đủ rõ để enforcement hoạt động tốt. Nhưng với những nhóm đang đẩy agent vào workflow có hậu quả thật như pricing, support, account action hoặc tool-calling, Open Bias chạm đúng một nhu cầu đang nóng: biến “đừng làm vậy” thành cơ chế kỹ thuật có thể kiểm soát được. Đó là lý do dự án này đáng theo dõi dù còn rất mới.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn