LoongForge — framework huấn luyện đa mô thức đẩy hiệu năng GPU/XPU cho LLM, VLM và VLA - Open Source

Điểm nổi bật

Stars: 167 stars trên GitHub ngay trong tháng đầu open-source.
Tín hiệu mới: repo được push lúc 2026-05-21T09:37:22Z, nằm gọn trong khung 15h–21h Asia/Saigon.
Thông điệp hiệu năng: README công bố từ 1.16x đến 2.31x speedup, và riêng tối ưu DSA cho DeepSeek-V3.2 có thể lên gần 5x so với Megatron-LM trong test giảm lớp.
Phạm vi hỗ trợ: bao phủ LLM, VLM, VLA, diffusion, kèm hỗ trợ song song cho NVIDIA GPU và Kunlun XPU.
Mức độ sản xuất: nhóm phát triển cho biết framework từng chạy ở quy mô 5.000+ XPU trước khi mở mã.

Biểu đồ

flowchart LR A[Du lieu va config] --> B[LoongForge] B --> C[LLM VLM VLA Diffusion] B --> D[GPU NVIDIA] B --> E[XPU Kunlun] C --> F[Pretrain SFT Midtrain] D --> G[Tang toc huan luyen] E --> G

Tóm tắt

LoongForge là một tín hiệu đáng chú ý từ hệ sinh thái AI Trung Quốc: thay vì chỉ mở model, Baidu Baige mở cả lớp hạ tầng huấn luyện. Điều này quan trọng hơn bề mặt README, vì cuộc đua hiện tại không chỉ nằm ở model weights mà còn ở khả năng train hiệu quả trên hạ tầng dị chủng, đặc biệt khi doanh nghiệp châu Á muốn bớt phụ thuộc tuyệt đối vào stack NVIDIA.

Điểm khác biệt của LoongForge là định vị rất rõ cho môi trường sản xuất. Dự án không tự giới thiệu như một lab toy mà như một training stack đã được dùng nội bộ cho khách hàng thật, sau đó mới đóng gói để cộng đồng dùng lại. Với các team build model, đây là lớp công cụ đáng theo dõi hơn nhiều repo chỉ dừng ở benchmark demo.

Chi tiết

README của LoongForge cho thấy tham vọng lớn hơn một fork Megatron-LM thông thường. Nhóm phát triển nói thẳng đây là hậu thân open-source của AIAK-Training-LLM, tức một stack tăng tốc huấn luyện mà Baidu Baige đã dùng trong các bài toán doanh nghiệp trước khi công khai mã nguồn. Điều này làm thay đổi cách đọc repo: giá trị không chỉ ở số module hỗ trợ, mà ở việc nhiều quyết định thiết kế đã được thử trong môi trường vận hành thực tế.

Về kỹ thuật, LoongForge đánh vào ba nỗi đau quen thuộc của nhóm train model. Thứ nhất là bài toán hợp nhất nhiều modality. Repo gom LLM, VLM, diffusion và embodied model vào cùng một framework, cho phép dùng chung cách tổ chức config, data pipeline và tooling thay vì vá nhiều stack rời rạc. Thứ hai là bài toán song song và tối ưu bộ nhớ. README nhấn mạnh các kỹ thuật như heterogeneous parallelism, decoupled encoder-decoder training, DP load balancing, adaptive FP8 và các fused operator riêng cho DSA/MoE. Với team huấn luyện quy mô lớn, đây chính là nơi chi phí GPU bị đốt nhiều nhất, nên chỉ cần vài phần trăm cải thiện cũng có giá trị thương mại rõ rệt. Thứ ba là bài toán phần cứng dị chủng. Việc hỗ trợ cả Kunlun XPU lẫn NVIDIA GPU cho thấy Baidu đang cố biến LoongForge thành bàn đạp cho một chuỗi cung ứng AI bớt lệ thuộc hơn.

Điểm đáng đọc nữa là các con số benchmark được đặt cạnh baseline quen thuộc như Megatron-LM, VeOmni, LeRobot hay OpenPI. Dù cộng đồng vẫn cần kiểm chứng độc lập, phạm vi số liệu đủ rộng để gợi ý đây không phải repo dựng cho đẹp README. Thêm vào đó, LoongForge có tài liệu cài đặt, tutorial cho từng modality, ví dụ launch script và cả công cụ chuyển checkpoint giữa Megatron với Hugging Face. Đây là loại “độ hoàn thiện hạ tầng” rất quan trọng nếu muốn repo được dùng thật trong doanh nghiệp.

Hạn chế dĩ nhiên là rào cản triển khai cao. Đây không phải công cụ cho cá nhân muốn thử nhanh trên laptop; nó hợp hơn với lab hoặc công ty có cụm tính toán nghiêm túc. Nhưng chính vì thế LoongForge đáng chú ý trong slot này: nó phản ánh làn sóng open-source đang đi sâu xuống lớp training infrastructure, nơi lợi thế cạnh tranh thật của AI ngày càng nằm ở hiệu năng hệ thống chứ không chỉ ở model card.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn