Needle — mô hình tool-calling 26M cho thiết bị nhỏ - Open Source

Điểm nổi bật

Stars: khoảng 52 stars trên GitHub lúc ghi nhận; còn sớm nhưng có tín hiệu Show HN trong đúng cửa sổ quét.
Kiến trúc: model chỉ 26M tham số, nhấn mạnh thiết kế Simple Attention Network và bỏ hoàn toàn FFN.
Hiệu năng công bố: chạy khoảng 6000 tok/s prefill và 1200 tok/s decode trên runtime Cactus.
Dữ liệu huấn luyện: pretrained trên 200B tokens, post-train thêm 2B tokens dữ liệu function-calling tổng hợp.
Giá trị chính: nhắm vào tool use on-device cho điện thoại, wearables và các personal agent cần chi phí rất thấp.

Biểu đồ

flowchart LR A[Truy vấn người dùng] --> B[Needle 26M] C[Schema công cụ] --> B B --> D[JSON tool call] D --> E[API hay thiết bị] E --> F[Hành động cục bộ]

Tóm tắt

Needle là một repo nhỏ nhưng mang luận điểm khá lớn: không phải mọi trải nghiệm agent đều cần model khổng lồ. Dự án tập trung vào một tác vụ rất cụ thể là function calling, tức biến yêu cầu tự nhiên thành tên công cụ và tham số đúng định dạng. Với góc nhìn sản phẩm, đây là một hướng đáng chú ý vì nhiều assistant trên điện thoại, thiết bị đeo hay hệ thống nhúng cần đúng kiểu năng lực này hơn là hội thoại dài hay suy luận mở.

Điểm hay của Needle là nó không chỉ đưa ra repo weights mà còn kể một câu chuyện kiến trúc rõ ràng: nếu bài toán đã được externalize qua tool schema và ngữ cảnh có cấu trúc, thì model có thể nhỏ đi rất mạnh. Điều này không biến Needle thành lời giải cho mọi agent, nhưng khiến nó trở thành chỉ báo sớm cho một nhánh thị trường quan trọng.

Chi tiết

README của Needle mô tả đây là một “Simple Attention Network” được distill từ Gemini 3.1 cho bài toán function calling. Ý tưởng cốt lõi là với các tác vụ kiểu gọi công cụ một phát, model không cần gánh quá nhiều năng lực ghi nhớ và biểu diễn tri thức tổng quát trong trọng số. Thay vào đó, nó chủ yếu cần đọc query, đọc schema công cụ, nối đúng ý định với đúng tool và điền tham số chính xác. Nhóm tác giả vì thế thử cắt bỏ hoàn toàn feed-forward network, giữ lại cấu trúc attention và gating để đẩy bài toán về đúng phần mà họ cho là có ích nhất.

Điểm hấp dẫn nằm ở việc repo không chỉ là paperware. Người dùng có thể clone, chạy needle playground, mở web UI cục bộ, thử tool schema của riêng mình và finetune trên Mac hoặc PC. Việc hỗ trợ playground và lệnh finetune ngay trong CLI khiến repo này trở nên thực dụng hơn nhiều dự án tiny model chỉ dừng ở checkpoint. Với builder đang muốn kiểm chứng ý tưởng personal AI chạy local, đây là đường vào rất ngắn.

Về mặt chiến lược, Needle đứng ở giao điểm của ba xu hướng. Thứ nhất là nhu cầu AI on-device để giảm latency, tăng riêng tư và cắt chi phí inference. Thứ hai là xu hướng phân tách agent thành nhiều lớp: model nhỏ làm intent-to-tool, model lớn xử lý suy luận khó hoặc fallback. Thứ ba là làn sóng tối ưu specialized model thay vì cố dùng một foundation model cho mọi việc. Nếu repo chứng minh được chất lượng ổn định trên nhiều schema công cụ khác nhau, Needle có thể trở thành một mảnh ghép hạ tầng hữu ích cho mobile assistant, smart home, wearable workflows hoặc edge agent trong công nghiệp.

Hạn chế cũng khá rõ. Repo hiện thiên về single-shot function calling, nên chưa tự chứng minh được năng lực agent nhiều bước, retry hay quản lý trạng thái dài. Bài toán tool calling trong production cũng thường đụng tới việc schema đổi, context nhiễu và yêu cầu ambiguity resolution — những chỗ mà model rất nhỏ có thể dễ gãy. Dù vậy, chính việc repo chấp nhận phạm vi hẹp và tối ưu rất sâu cho phạm vi đó lại là điểm đáng theo dõi. Needle có thể không phải “một model để thay mọi model”, nhưng nó là ví dụ đẹp cho xu hướng AI chuyên dụng, rẻ và đủ nhanh để chạm vào sản phẩm thật.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn