ZAYA1-8B — MoE reasoning 8B được Zyphra huấn luyện hoàn toàn trên AMD - Open Source

Điểm nổi bật

Mức độ quan tâm: 66 likes trên Hugging Face, 1 discussion mở tại thời điểm fetch.
Kích thước mô hình: 760M active parameters, 8.4B total parameters theo model card.
Thông điệp kỹ thuật: Zyphra tuyên bố đây là model MoE reasoning đầu tiên trong dòng này được pretrained, midtrained và SFT hoàn toàn trên AMD MI300 stack.
Benchmark đáng chú ý: model card công bố AIME'26 89.1, GPQA-Diamond 71.0 và MMLU-Pro 74.2.

Biểu đồ

flowchart LR A[AMD MI300 stack] --> B[ZAYA1-8B] B --> C[Reasoning toán] B --> D[Coding] B --> E[Test-time compute harness] C --> F[Model nhỏ nhưng hiệu quả cao] D --> F E --> F

Tóm tắt

ZAYA1-8B là một model open-weight mới của Zyphra được công bố đúng trong cửa sổ 3h–9h theo giờ Việt Nam, với blog chính thức ghi thời điểm xuất bản là 21:59 UTC ngày 6/5, tương đương 04:59 ICT ngày 7/5. Đây là tín hiệu đủ mới để đưa vào slot 9h và đáng chú ý vì Zyphra không bán câu chuyện “to hơn”, mà bán câu chuyện “thông minh dày đặc hơn trên mỗi tham số hoạt động”.

Điểm hấp dẫn của dự án không nằm ở quy mô tuyệt đối mà ở cách hãng định vị nó: một model reasoning nhỏ, có thể triển khai gọn hơn, nhưng vẫn cạnh tranh tốt trên toán, code và các tác vụ cần suy luận dài. Với doanh nghiệp hoặc nhóm R&D muốn cân bằng giữa chất lượng và chi phí triển khai, đây là kiểu phát hành có ý nghĩa thực tế hơn nhiều so với một model cực lớn nhưng khó vận hành.

Chi tiết

Về kỹ thuật, ZAYA1-8B là một mixture-of-experts model với khoảng 760 triệu active parameters trên tổng quy mô 8.4 tỷ tham số. Đây là cấu trúc đáng chú ý vì nó cho phép mô hình giữ footprint tổng thể không quá nhỏ nhưng chỉ kích hoạt một phần năng lực ở mỗi bước suy luận, từ đó tối ưu chi phí inference và mở ra khả năng chạy trong những harness test-time compute phức tạp hơn. Zyphra nhấn mạnh model này mạnh ở toán, reasoning dài và coding, tức ba khu vực mà nhiều đội AI đang ưu tiên khi muốn xây agent hoặc workflow bán tự động.

Blog công bố của Zyphra nói rõ ZAYA1-8B được huấn luyện hoàn toàn trên AMD Instinct MI300 stack với cụm 1.024 node. Điều này làm bản phát hành có thêm một lớp ý nghĩa ngoài benchmark: nó là tín hiệu thị trường rằng hệ sinh thái model frontier cỡ vừa không nhất thiết phải phụ thuộc hoàn toàn vào CUDA/NVIDIA để ra sản phẩm đáng chú ý. Với các nhà cung cấp hạ tầng hoặc doanh nghiệp muốn đa dạng hóa chuỗi cung ứng compute, thông điệp này có giá trị chiến lược.

Trên model card Hugging Face, Zyphra công bố loạt benchmark khá mạnh so với quy mô active parameter của model: AIME'26 89.1, HMMT 71.6, GPQA-Diamond 71.0, MMLU-Pro 74.2 và LiveCodeBench-v6 quanh ngưỡng 65.8. Công ty còn gắn model này với phương pháp Markovian RSA cho test-time compute, tức mô hình được thiết kế để tận dụng thêm ngân sách suy luận một cách có cấu trúc thay vì chỉ “nghĩ dài hơn”. Với các nhóm làm reasoning agent, đây là chi tiết quan trọng vì nó nói lên sự đồng thiết kế giữa model và harness.

Mặt thực dụng cũng khá rõ. Model card đưa luôn lệnh chạy vLLM và gợi ý nhánh transformers/vLLM riêng để triển khai. Điều đó giúp ZAYA1-8B không chỉ dừng ở mức “paper release”, mà có thể nhanh chóng được thử nghiệm trong pipeline inference thực tế. So với nhiều model open-weight mới nhưng thiếu tài liệu triển khai, đây là lợi thế lớn.

Hạn chế là mức quan tâm cộng đồng ở thời điểm hiện tại còn đang sớm: 66 likes và 1 discussion chưa nói lên độ bền của hệ sinh thái xung quanh model. Ngoài ra, benchmark phần lớn vẫn do chính nhóm phát hành công bố. Tuy vậy, xét theo độ mới, độ rõ của tài liệu và câu chuyện kỹ thuật xoay quanh efficiency trên AMD, đây là một trong những bản phát hành open source đáng chú ý nhất của khung giờ này.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn