MiMo-V2.5 — mô hình omnimodal 1 triệu token của Xiaomi đẩy mạnh agentic workflow - Open Source

Điểm nổi bật

Tín hiệu cộng đồng: khoảng 110 likes trên Hugging Face và hơn 2.3k followers cho Xiaomi MiMo.
Ngữ cảnh dài: model card nêu hỗ trợ tới 1M tokens.
Quy mô: kiến trúc Sparse MoE ~310B parameters với file size công bố khoảng 310.8B parameters tổng.
Đa phương thức: hỗ trợ text, image, video, audio trong một kiến trúc hợp nhất.
Tín hiệu hiệu năng: model card gắn kết quả như 56.1 SWE-Bench Pro và 65.8 TerminalBench 2.

Biểu đồ

flowchart LR A[MiMo-V2.5] --> B[Text Image Video Audio] A --> C[1M token context] A --> D[Agentic RL + distillation] B --> E[Workflow đa phương thức] C --> E D --> F[Đẩy mạnh tác vụ agent]

Tóm tắt

MiMo-V2.5 là một tín hiệu đáng chú ý từ làn sóng model mở trên Hugging Face vì nó không chỉ cạnh tranh ở quy mô hay benchmark đơn lẻ. Xiaomi định vị model như một hệ omnimodal thực thụ, kết hợp hiểu văn bản, ảnh, video và audio trong cùng một nền tảng, đồng thời nhấn mạnh các bài toán agentic hơn là chat thông thường.

Điều này quan trọng ở chỗ cuộc đua open model đang thay đổi trọng tâm. Thay vì chỉ hỏi model nào trả lời hay hơn trong hộp thoại, cộng đồng bắt đầu đòi hỏi model nào xử lý được chuỗi tác vụ dài, context rất lớn và phối hợp nhiều dạng dữ liệu trong cùng workflow.

Chi tiết

Theo model card trên Hugging Face, MiMo-V2.5 được xây như một native omnimodal model với khả năng xử lý văn bản, hình ảnh, video và âm thanh trong một kiến trúc hợp nhất. Điểm nhấn kỹ thuật không nhỏ là ngữ cảnh tới 1 triệu token cùng kiến trúc sparse mixture-of-experts khoảng 310B parameters. Xiaomi cũng nhấn mạnh các thành phần như hybrid attention, dedicated vision encoder, audio encoder và multi-token prediction để vừa giữ năng lực dài ngữ cảnh, vừa cải thiện hiệu quả suy luận. Đây là loại thông số cho thấy tham vọng của dự án vượt xa một model chat thuần túy.

Ở góc độ sản phẩm, phần đáng chú ý hơn là cách Xiaomi đóng khung năng lực agentic. Model card mô tả hậu huấn luyện bằng SFT, agentic RL quy mô lớn và multi-teacher on-policy distillation. Nghĩa là repo này không chỉ muốn được nhìn như một foundation model đa phương thức, mà như một nền tảng cho các workflow có hành động, nhiều bước và nhiều loại đầu vào. Việc gắn thêm các benchmark như SWE-Bench Pro hay TerminalBench 2 càng củng cố thông điệp đó: model mở giờ phải chứng minh giá trị ở tasks gần với thao tác công việc thực tế.

Về chiến lược, sự xuất hiện của MiMo-V2.5 trên Hugging Face đáng theo dõi vì nó cho thấy ranh giới giữa model mở và sản phẩm agent đang mờ dần. Khi các model omnimodal bắt đầu tích hợp dài ngữ cảnh, reasoning cho tác vụ và tín hiệu benchmark gắn với execution, hệ sinh thái open source sẽ có thêm vật liệu để xây agent không chỉ dựa vào văn bản. Dĩ nhiên, doanh nghiệp cần thận trọng với chi phí suy luận, yêu cầu hạ tầng và độ trưởng thành khi đưa vào production. Nhưng như một tín hiệu thị trường, MiMo-V2.5 cho thấy open model race đã chuyển sang giai đoạn cạnh tranh trên năng lực đa phương thức và khả năng làm việc như một "bộ não" cho workflow phức tạp.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn