SigMap — lớp retrieval tối giản để giảm token cho AI coding - Open Source

Điểm nổi bật

Stars: khoảng 77 stars trên GitHub tại thời điểm crawl.
Tín hiệu mới: xuất hiện trên HN như một Show HN khoảng 1 giờ trước, đúng cửa sổ thời gian yêu cầu.
Benchmark tự công bố: hit@5 đạt 80%, giảm prompt 41%, token reduction trung bình 96.8% trên 18 repo thực.
Triết lý sản phẩm: zero dependencies, zero cloud, không cần vector DB hay embedding pipeline.

Biểu đồ

flowchart LR A[Câu hỏi về codebase] --> B[SigMap TF-IDF] B --> C[Chọn file liên quan] C --> D[Context gọn cho AI] D --> E[Ít token hơn]

Tóm tắt

SigMap theo đuổi một hướng rất thực dụng trong thị trường AI coding: thay vì xây thêm một lớp vector database hay dịch vụ indexing nặng, dự án muốn tìm đúng file trước khi model trả lời. Nó trích xuất function/class signatures, xếp hạng file bằng TF-IDF và ghi context ở định dạng phù hợp cho nhiều assistant như Copilot, Claude, Cursor, Windsurf, Gemini hay Codex.

Trong slot này, SigMap nổi bật không phải vì quy mô cộng đồng lớn, mà vì timing và độ rõ của proposition. Show HN xuất hiện ngay trong khung quét, còn README có thông điệp mạnh: giảm token mạnh mà vẫn tăng tỷ lệ chọn đúng file. Đây là một pain point thật với bất kỳ team nào đang dùng coding agent trên repo vừa và lớn.

Chi tiết

Phần hay nhất trong README của SigMap là nó không cố bán “AI magic”. Dự án nói rất thẳng: vấn đề của nhiều assistant hiện nay là nhét quá nhiều repo vào context hoặc đoán mò file liên quan. SigMap tìm cách sửa chuyện đó bằng một pipeline đơn giản: hỏi, xếp hạng, viết context, kiểm chứng, chấm groundedness, rồi học trọng số. Nếu mô tả của tác giả là đúng, lợi ích ở đây không chỉ là giảm token mà còn là ép workflow trở nên có kiểm chứng hơn.

Các số liệu tự công bố khá tham vọng. README nêu Hit@5 khoảng 80.0% so với baseline 13.6%, task success khoảng 52.2% so với 10%, prompts per task giảm còn 1.68 từ mức 2.84, còn token reduction dao động 40–98% với trung bình 96.8% trên 18 public repos. Dù đây là benchmark do chính tác giả công bố và cần thẩm định độc lập, nó vẫn cho thấy nhóm phát triển hiểu rất rõ nỗi đau của developer khi agent đọc quá nhiều file nhưng vẫn trả lời sai.

Một điểm đáng giá khác là chiến lược sản phẩm. SigMap tránh phụ thuộc vào hạ tầng nặng: không vector DB, không cloud account, không API key, không dependency ngoài. Điều đó làm cho adoption trong đội kỹ sư nhỏ hoặc môi trường enterprise bị khóa mạng dễ hơn đáng kể. Dự án còn hỗ trợ nhiều adapter để xuất context sang Copilot, Claude, Cursor, Windsurf, OpenAI, Gemini và Codex; đồng thời có MCP server với 9 tool on-demand cho Claude Code và Cursor. Nghĩa là SigMap đang cố định vị mình như một lớp context infrastructure trung tính, thay vì khóa vào một vendor.

Tất nhiên, hướng tiếp cận TF-IDF và signature-based retrieval cũng có giới hạn. Nó có thể rất mạnh cho câu hỏi kiến trúc, truy vết auth, routing hay API surface; nhưng với bug tinh vi nằm ở runtime behavior, semantic relationships phức tạp hoặc hidden coupling, file ranking theo văn bản có thể chưa đủ. Tuy vậy, chính vì đơn giản và deterministic, SigMap có lợi thế rõ ở những team muốn kết quả lặp lại được, không muốn chăm re-index hay đối phó drift của embedding stack. Với xu hướng doanh nghiệp cố siết chi phí AI coding trong 2026, đây là dự án nhỏ nhưng đánh đúng nhu cầu thật.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn