Glyph — bộ phát hiện prompt injection độ trễ dưới 1ms - Open Source

Điểm nổi bật

Nguồn phát hiện: xuất hiện trên HN New trong vài phút gần đây.
Ngôn ngữ chính: Go, kèm phần web/Astro và Python hỗ trợ.
Tuyên bố cốt lõi: detector prompt injection dưới 1ms, ưu tiên interpretability thay vì “benchmark chasing”.
Kiến trúc chính: canonicalization pipeline, rule ensemble và logistic regression online.
API sẵn có: detect, train, health, version và metrics.

Biểu đồ

flowchart LR A[Prompt đầu vào] --> B[Canonicalization] B --> C[Rule checks L1/L2] C --> D[Feature vector 15 chiều] D --> E[Logistic regression] E --> F[Verdict attack hay benign]

Tóm tắt

Glyph nhắm đúng một vấn đề đang nóng khi agent và tool-use lan rộng: prompt injection. Thay vì giải quyết bằng một model lớn khác, dự án chọn cách nhẹ hơn và dễ kiểm toán hơn: canonicalize input, áp rule theo nhiều lớp, trích feature đơn giản rồi phân loại bằng một bộ logistic regression có thể học online.

Trong làn sóng guardrail hiện nay, hướng đi này đáng chú ý vì nó đặt ưu tiên vào latency, độ minh bạch và khả năng vận hành trong production pipeline, thay vì chạy theo benchmark đẹp.

Chi tiết

README của Glyph mở đầu rất rõ: đây là một “rule-heavy + shallow-ML prompt-injection detector for LLM guardrails”. Chỉ riêng cách định vị đó đã đủ khác biệt với nhiều dự án guardrail hiện nay, vốn thường đẩy mọi thứ qua thêm một LLM khác. Glyph chọn cách bền hơn về vận hành: chuẩn hóa đầu vào bằng một pipeline canonicalization gồm NFKC, loại ký tự vô hình, gập homoglyph, normalize whitespace và thử giải mã các lớp base64/hex/URL/HTML. Sau đó, hệ thống áp các rule bề mặt và encoding-based để phát hiện mẫu tấn công phổ biến.

Điểm mạnh lớn nhất là tính công nghiệp. Repo có sẵn HTTP server với các endpoint detect, train, health, version và metrics; có Prometheus metrics; có cơ chế hot-swap classifier bằng atomic.Pointer; có dữ liệu mẫu để bootstrap trọng số. Điều này khiến Glyph giống một thành phần có thể gắn vào pipeline thật hơn là một paper demo. Nếu một đội đang xây agent platform hoặc gateway cho LLM apps, họ có thể nhìn thấy ngay chỗ repo này sẽ ngồi trong kiến trúc phòng thủ.

Tính giải thích được cũng là một lợi thế chiến lược. Khi một prompt bị gắn cờ, hệ thống có thể trả về rule_fires và các tín hiệu đặc trưng thay vì chỉ một nhãn mơ hồ. Với các đội compliance hoặc enterprise security, khả năng giải trình này thường quan trọng hơn thêm vài điểm benchmark. Ngoài ra, việc dùng logistic regression online cho phép detector cập nhật dần từ dữ liệu thật mà không cần huấn luyện lại một mô hình nặng.

Dĩ nhiên, repo còn sớm và cũng nói thẳng những phần chưa làm: chưa có gRPC, per-tenant model, fallback sang BERT/LLM, attack generation harness hay tracing đầy đủ. Hơn nữa, prompt injection là bài toán luôn tiến hóa; detector rule-based và shallow ML cần được cập nhật liên tục nếu muốn theo kịp kỹ thuật tấn công mới. Nhưng đó cũng chính là lý do Glyph đáng theo dõi: nó đang thử xây lớp guardrail thực dụng, nhanh và rẻ để đặt ở tuyến đầu, trước khi phải escalated sang biện pháp đắt đỏ hơn.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn