Nandi Mini 600M thử Shared KV để giảm bộ nhớ cho LLM đa ngôn ngữ nhỏ - Open Source

Điểm nổi bật

Model nằm trên Hugging Face Trending và được ghi nhận updated about 6 hours ago, khớp đúng mép cửa sổ slot 3h–9h.
Dự án nhắm vào phân khúc ~600M tham số, nhưng công bố rõ một tối ưu đáng chú ý: Shared KV giúp giảm khoảng 50% bộ nhớ KV-cache khi suy luận.
Checkpoint hiện mới ở mốc 250B tokens và nhóm tác giả nói đây mới chỉ là khoảng 20% training.
Mô hình tập trung vào Indic languages cùng tiếng Anh, với benchmark và tokenization fertility được công khai ngay từ checkpoint sớm.

Biểu đồ

flowchart LR A[LLM nhỏ đa ngôn ngữ] --> B[Shared KV] B --> C[Giảm KV-cache khoảng 50%] C --> D[Dễ triển khai hơn trên edge và on-prem] D --> E[Phù hợp workload context dài giá rẻ]

Tóm tắt

Nandi-Mini-600M-Early-Checkpoint đáng chú ý không phải vì nó đã mạnh nhất, mà vì nó hé lộ một hướng tối ưu rất thực dụng cho thị trường mô hình nhỏ: giảm chi phí bộ nhớ ở bước suy luận mà vẫn giữ được đường nâng cấp về năng lực. Nhóm FrontiersMind công bố checkpoint sớm với kiến trúc Shared KV, mô tả rõ cách tái dùng latent representation cho key và value để tiết kiệm tài nguyên KV-cache.

Trong bối cảnh ai cũng nói về mô hình lớn, hướng đi này đáng xem vì nó chạm đúng nhu cầu triển khai thật: on-prem, edge, memory-constrained deployment và context dài chi phí thấp. Với các đội muốn xây AI đa ngôn ngữ ở quy mô gọn, đây là kiểu tín hiệu đáng để theo dõi sớm.

Chi tiết

Điểm thú vị nhất của Nandi-Mini-600M không nằm ở benchmark tuyệt đối mà nằm ở lựa chọn kiến trúc. Shared KV là phần được nêu như ý tưởng lõi: thay vì tạo riêng key và value projection theo cách truyền thống, mô hình tái dùng một latent representation chung rồi áp dụng bước chuẩn hóa key cho attention. Theo mô tả của nhóm tác giả, cách làm này giảm khoảng một nửa dấu chân bộ nhớ KV-cache, đổi lại là một mức tăng compute nhỏ. Đó là trade-off rất hợp với bối cảnh triển khai inference nơi memory thường là nút thắt thực hơn FLOPs thuần túy.

Với mô hình cỡ 600M, tối ưu như vậy đặc biệt đáng giá. Thị trường hiện có rất nhiều nhu cầu cho các model nhỏ nhưng hữu dụng: chạy on-prem, nhúng vào edge device, triển khai ở khu vực băng thông thấp, hoặc phục vụ nhiều tenant mà không đội chi phí GPU quá mạnh. Một checkpoint sớm công khai thẳng những quyết định kiến trúc kiểu này giúp cộng đồng không chỉ so kết quả benchmark, mà còn học được hướng thiết kế mô hình cho các ràng buộc hạ tầng thật.

Một lớp ý nghĩa khác là sự tập trung vào ngôn ngữ Indic. Bảng tokenization fertility mà model card công bố cho Bengali, Gujarati, Kannada, Malayalam, Telugu và các ngôn ngữ khác cho thấy nhóm tác giả đang xem hiệu quả tokenizer như một phần của bài toán công bằng triển khai, không chỉ là chi tiết kỹ thuật. Với các thị trường ngoài tiếng Anh, chất lượng tokenizer ảnh hưởng trực tiếp đến chi phí context, độ dài prompt hữu dụng và cảm nhận chất lượng đầu ra. Vì vậy, ngay cả khi checkpoint còn sớm, hướng thiết kế này đã có giá trị chiến lược.

Dĩ nhiên, đây chưa phải mô hình chín muồi. Nhóm tác giả nói rõ model mới ở khoảng 20% tiến trình train, nhiều chỉ số benchmark còn kém các baseline đã train lâu hơn, và context hiện mới 2.048 token dù có kế hoạch mở rộng lên 32.000. Nhưng chính sự minh bạch này lại đáng quý. Nó biến repo/model page thành một tín hiệu nghiên cứu mở, nơi cộng đồng có thể theo dõi quá trình trưởng thành của một family model nhấn vào efficiency thay vì chỉ khoe điểm cuối cùng.

Nếu xu hướng inference cost tiếp tục là trọng tâm của năm 2026, những thử nghiệm như Nandi có thể quan trọng hơn vẻ ngoài “nhỏ”. Chúng mở ra khả năng tối ưu kiến trúc từ gốc để model nhỏ phục vụ được nhiều bài toán thực hơn, đặc biệt ở môi trường đa ngôn ngữ và hạ tầng hạn chế. Đó là lý do checkpoint này đáng có mặt trong vòng quét opensource sáng nay.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn