Memweave đưa bộ nhớ agent về lại Markdown và SQLite để kiểm soát tốt hơn - Open Source

Điểm nổi bật

Kiến trúc: Markdown là source of truth, SQLite là derived index có thể rebuild.
Tìm kiếm: kết hợp BM25 FTS5 và semantic search sqlite-vec theo cơ chế hybrid.
Chi phí vận hành: không cần vector DB ngoài, không cần dịch vụ cloud bắt buộc, có thể chạy offline với keyword search.
Khả năng kiểm soát: memory file có thể mở, sửa, grep và git diff trực tiếp.

Biểu đồ

flowchart LR A[Markdown memories] --> B[Chunk và hash] B --> C[SQLite FTS5] B --> D[sqlite-vec] C --> E[Hybrid merge] D --> E E --> F[Search result cho agent]

Tóm tắt

Memweave giải quyết một vấn đề rất thực dụng của agent engineering, bộ nhớ dài hạn thường nhanh chóng trở thành một lớp hạ tầng khó kiểm chứng. Thay vì đẩy dữ liệu vào vector database và để người dùng tin vào hệ thống như một hộp đen, Memweave đưa mọi thứ về file Markdown trên đĩa, còn SQLite chỉ đóng vai trò chỉ mục có thể tái tạo.

Điểm hay của cách tiếp cận này là cân bằng được hai nhu cầu vốn hay xung đột, agent vẫn có semantic memory và hybrid search, nhưng con người vẫn xem được chính xác agent đã học gì. Với các đội coi auditability và khả năng rollback là yêu cầu cứng, đây là một kiến trúc đáng chú ý.

Chi tiết

Theo README, Memweave là thư viện Python async-first cho AI agents với bộ nhớ bền vững, tìm kiếm được và có thể version-control. Thiết kế cốt lõi của dự án rất rõ ràng, Markdown mới là nơi lưu dữ liệu gốc, còn SQLite chỉ là lớp tăng tốc để phục vụ tra cứu. Cách chia tách này nghe đơn giản nhưng giải quyết đúng điểm đau của nhiều hệ thống memory hiện nay. Khi dữ liệu chỉ nằm trong vector DB hoặc hệ thống proprietary, developer gần như mất khả năng đọc, diff, chỉnh tay và kiểm toán chính xác agent đã tích lũy gì theo thời gian.

Memweave giữ được ưu điểm của hệ thống tìm kiếm hiện đại nhờ hybrid search giữa BM25 FTS5 và sqlite-vec. README mô tả khá kỹ pipeline, từ chunking, hashing, embedding cache đến weighted merge, temporal decay và MMR reranking. Điều quan trọng là dự án không gắn chặt vào một nhà cung cấp embedding cụ thể. Nếu embedding API lỗi hoặc không muốn dùng, hệ thống vẫn chạy ở chế độ keyword-only thay vì gãy hoàn toàn. Với các đội đang tự host agent hoặc muốn tối ưu chi phí, khả năng degrade gracefully này có giá trị rõ rệt.

Một điểm mạnh khác là tính minh bạch vận hành. Vì bộ nhớ là file .md, người dùng có thể mở trực tiếp trong editor, grep từ terminal hoặc xem git diff để hiểu agent đã học thêm gì giữa hai phiên. Điều đó biến memory từ một lớp “ma thuật” khó tin thành tài sản có thể quản trị. Kiến trúc evergreen file và dated file cũng hợp lý, tri thức nền tảng không bị suy giảm, còn tri thức ngắn hạn giảm trọng số theo thời gian. Đây là một mô hình gần với cách con người quản trị tri thức hơn so với cách ném toàn bộ mọi thứ vào một vector store duy nhất.

Dĩ nhiên, Memweave phù hợp hơn với những người chấp nhận đánh đổi để lấy khả năng kiểm soát. Nó không phải giải pháp plug-and-play cho mọi hệ thống doanh nghiệp khổng lồ cần multi-tenant phức tạp hoặc hạ tầng phân tán ngay từ đầu. Nhưng với personal agent, team nhỏ, agent coding nội bộ hoặc các sản phẩm cần audit trail rõ ràng, dự án này có góc tiếp cận rất thực tế. Trong bối cảnh memory đang trở thành lớp hạ tầng trung tâm của agent, Memweave nổi bật vì không cố làm quá nhiều thứ, mà chọn giải đúng bài toán “bộ nhớ phải vừa hữu ích cho máy, vừa đọc được bởi người”.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn