ERAI News

Quasar-Preview mở màn hướng 18B/2B-active và 5M context cho decentralized training

Python 78 stars 3 giờ trước

Điểm nổi bật

  • Quy mô kiến trúc: khoảng 18B tham số tổng, nhưng chỉ ~2B active trên mỗi đường suy luận sparse MoE.
  • Ngữ cảnh: phơi bày cấu hình 5M token context ở dạng thử nghiệm, hiếm thấy trong một checkpoint preview công khai.
  • Định vị khác biệt: model card nhấn mạnh đây là bước mở đầu cho chuỗi Quasar Foundation Models, không phải bản SOTA đóng gói sẵn.
  • Hạ tầng đi kèm: gắn chặt với Bittensor SN24, distillation và hướng mở rộng qua decentralized training.

Biểu đồ

flowchart LR A[Token dau vao] --> B[Quasar hybrid layers] B --> C[Sparse MoE 2B active] C --> D[Long context 5M] D --> E[Distillation va SN24] E --> F[Mo rong model tuong lai]

Tóm tắt

Quasar-Preview đáng đọc vì nó không bán mình như một model "xong rồi". Trái lại, model card công khai rất rõ đây là một checkpoint sớm nhằm phơi lộ hướng kiến trúc: sparse MoE, lớp hybrid giữa attention và recurrent path, cùng cấu hình long-context cực lớn. Cách định vị này khiến dự án giống một tín hiệu hạ tầng hơn là một đợt ra mắt model thuần marketing.

Với hệ sinh thái open-source AI, điều quan trọng không chỉ nằm ở con số 18B hay 5M context. Điều đáng chú ý là nhóm phát triển đang cố đưa ra một kiến trúc có thể tiếp tục được mở rộng qua distillation và decentralized training, thay vì chỉ tung ra một checkpoint rồi để cộng đồng tự xoay xở.

Chi tiết

Model card của Quasar-Preview cho thấy một lựa chọn chiến lược khá khác biệt so với nhiều đợt phát hành open model gần đây. Thay vì chỉ công bố benchmark đẹp và tuyên bố đã sẵn sàng cho production, SILX AI liên tục nhấn mạnh đây là "early preview checkpoint". Điều đó nghe có vẻ khiêm tốn, nhưng thực ra lại là tín hiệu mạnh. Nó cho thấy nhóm phát triển muốn công khai hướng kiến trúc và thu hút hệ sinh thái cùng tham gia vào chu kỳ cải tiến tiếp theo, đặc biệt trong bối cảnh họ gắn dự án với Bittensor SN24 và lộ trình decentralized scaling.

Về mặt kỹ thuật, Quasar-Preview đưa ra một cấu hình rất đáng chú ý: khoảng 18B tham số tổng nhưng chỉ kích hoạt khoảng 2B ở đường suy luận, tức là cố tối ưu trade-off giữa năng lực và chi phí inference thông qua sparse MoE. Bên cạnh đó, model card còn công khai tham vọng long-context với cấu hình 5 triệu token ở trạng thái thử nghiệm. Dù nhóm phát triển nói rõ phần mở rộng context mới chỉ được huấn luyện giới hạn, việc dám public cấu hình này sớm vẫn quan trọng. Nó chuyển câu chuyện long-context từ marketing slogan thành một lớp thiết kế mà cộng đồng có thể kiểm tra, tái hiện và phản biện.

Một điểm đáng giá khác là Quasar-Preview không chỉ nói về model weights mà còn nói về hình thái hệ thống. Tài liệu nhắc tới Quasar hybrid layers, Raven branch, GLA branch, loop-transformer scaffold và cơ chế Safe NoPE/DrOPE cho long-context staging. Với người dùng phổ thông, đây có thể là chi tiết quá sâu. Nhưng với giới xây serving stack hoặc nghiên cứu kiến trúc, việc model card công bố cụ thể những thành phần nào đang active, thành phần nào mới được "include but not active by default" lại cực kỳ hữu ích. Nó làm rõ đây là một nền tảng đang mở đường cho các phiên bản kế tiếp, chứ chưa phải sản phẩm đóng hộp.

Tác động tiềm năng của Quasar-Preview nằm ở chỗ nó kết hợp ba narrative đang nóng của open-source AI 2026: sparse compute để giữ chi phí hợp lý, long-context như năng lực mặc định cho agent/memory system, và decentralized training như cách mở rộng nguồn lực ngoài các lab tập trung. Nếu hướng này chạy được, nó sẽ tạo thêm một lựa chọn cho cộng đồng muốn thoát khỏi logic chỉ scale bằng pretraining khổng lồ và cụm GPU tập trung.

Rủi ro tất nhiên là có. Nhóm phát triển thừa nhận đây chưa phải checkpoint cuối, chất lượng sẽ còn thay đổi sau distillation, hậu huấn luyện và chu kỳ subnet training. Vì vậy, ai tìm một model ổn định để triển khai ngay có thể thấy Quasar-Preview còn non. Nhưng với người quan sát hệ sinh thái, đây là loại phát hành đáng theo dõi vì nó hé lộ đường đi công nghệ nhiều hơn là bán thành tích ngắn hạn. Trong bối cảnh open-source AI ngày càng cạnh tranh ở lớp kiến trúc và hạ tầng mở rộng, Quasar-Preview là một tín hiệu rõ ràng rằng cuộc chơi không chỉ còn là đọ benchmark tức thời nữa.

Nguồn

© 2024 AI News. All rights reserved.