graphAI biến file thô thành đồ thị kiến thức tối ưu cho RAG và truy vấn AI - Open Source

Điểm nổi bật

Stars: 0 stars tại thời điểm quét, nhưng ý tưởng sản phẩm khá khác biệt và mới lên HN
Ngôn ngữ chính: JavaScript
Điểm khác biệt: thay text chunk truyền thống bằng dual graph với cạnh có hướng và vô hướng trên cùng tập node
Tối ưu chi phí: pipeline dựng graph cơ bản dùng TF-IDF và parsing deterministic, không phụ thuộc API embedding để bắt đầu
Mục tiêu sử dụng: RAG, memory dài hạn, audit tri thức, phát hiện mâu thuẫn và truy vấn có quan hệ rõ ràng

Biểu đồ

flowchart LR A[Raw files] --> B[Pipeline phân tích xác định] B --> C[Dual graph] C --> D[Subgraph truy vấn] D --> E[LLM suy luận] C --> F[Audit và Giki pages]

Tóm tắt

graphAI đi theo một hướng khá táo bạo trong không gian RAG và persistent knowledge. Thay vì coi tài liệu là tập các chunk văn bản để ném vào vector store, dự án cố gắng chuyển mọi tri thức thành node và cạnh, rồi serialize thành định dạng .gai thiên về khả năng máy tiêu thụ hơn là sự dễ đọc của con người.

Ý tưởng này không hoàn toàn mới về mặt học thuật, nhưng cách đóng gói thành một hệ thống open source thống nhất lại khá đáng chú ý. graphAI kết hợp parsing deterministic giá rẻ, lớp temporal memory, identity layer và audit report, khiến nó phù hợp với các đội muốn xây knowledge base cho AI theo hướng có cấu trúc hơn RAG phổ thông.

Chi tiết

Điểm mạnh nhất của graphAI là dám chất vấn giả định mặc định của RAG hiện nay, rằng cứ chunk văn bản và gắn embedding là đủ. README lập luận rằng prose vốn được tối ưu cho người đọc, không phải cho mô hình suy luận. Trong văn bản tự nhiên, rất nhiều quan hệ giữa thực thể bị ẩn trong cú pháp, ngữ cảnh hoặc tri thức nền, khiến LLM phải tự suy diễn lại. graphAI muốn kéo những quan hệ đó ra thành cấu trúc tường minh, với node đại diện cho thực thể hoặc sự kiện, còn cạnh có hướng và vô hướng biểu diễn loại quan hệ, mức liên đới và cả tiến hóa theo thời gian.

Về kiến trúc, dự án xây một dual graph trên cùng tập node. Cạnh có hướng dùng cho các quan hệ như defines, cites, supports, contradicts hay supersedes. Cạnh vô hướng mô tả similar-to, co-occurs hoặc shares-entity. Khi truy vấn, hệ thống không chỉ lấy đoạn text gần nhất theo vector similarity, mà tìm seed node, đi qua graph, gom thành một subgraph nhỏ rồi mới serialize cho LLM. Đây là cách tiếp cận hợp lý nếu mục tiêu là câu trả lời cần lần theo chuỗi quan hệ rõ ràng thay vì chỉ dựa trên sự giống nhau bề mặt của từ ngữ.

Một điểm đáng khen khác là dự án cố giữ chi phí khởi tạo thấp. Theo README, phần graph construction cơ bản có thể chạy bằng parsing, TF-IDF và luật deterministic, nghĩa là không cần gọi API đắt tiền để xây nền móng tri thức ban đầu. LLM enrichment chỉ là lớp tùy chọn để thêm synthesis hoặc ngữ cảnh. Điều đó mở ra khả năng dùng graphAI cho các kho tài liệu nội bộ nhỏ hoặc trung bình mà không phải chịu chi phí embedding lớn từ đầu.

Hạn chế là dự án còn rất sớm, độ hoàn thiện sản phẩm chưa được chứng minh, số star gần như chưa có và ý tưởng bản thân cũng đòi hỏi người dùng hiểu rõ hơn về knowledge representation so với RAG phổ thông. Tuy nhiên, với các team đang vật lộn với memory dài hạn, contradiction detection hoặc nhu cầu audit mối quan hệ giữa dữ kiện, graphAI là một dự án đáng thử. Nó không phải lựa chọn đơn giản nhất, nhưng lại là một trong số ít dự án open source gần đây dám đẩy câu hỏi “AI nên đọc tri thức theo định dạng nào” lên thành trung tâm sản phẩm.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn