ERAI News

DeepGEMM đẩy lớp kernel FP8-FP4 cho LLM lên trending khi hướng tới Mega MoE và JIT gọn nhẹ

Cuda 6.9k stars 2 giờ trước
DeepGEMM đẩy lớp kernel FP8-FP4 cho LLM lên trending khi hướng tới Mega MoE và JIT gọn nhẹ

Điểm nổi bật

  • Stars: khoảng 6.895 stars trên GitHub, thêm 109 stars trong ngày theo bảng trending.
  • Cập nhật mới: bản ghi ngày 2026-04-16 nhấn mạnh Mega MoE, FP8xFP4 GEMM, FP4 Indexer và JIT nhanh hơn.
  • Trọng tâm kỹ thuật: gom nhiều primitive cho LLM như GEMM, fused MoE, MQA scoring và HyperConnection vào một codebase CUDA thống nhất.
  • Giá trị chiến lược: thay vì thêm một agent framework nữa, DeepGEMM đánh vào lớp hiệu năng nền, nơi quyết định cost và throughput của inference thực chiến.

Biểu đồ

flowchart LR A[Tensor dau vao] --> B[DeepGEMM kernels] B --> C[FP8 FP4 GEMM] B --> D[Mega MoE] B --> E[MQA scoring] C --> F[Throughput cao hon] D --> F E --> F

Tóm tắt

DeepGEMM đáng chú ý vì nó đại diện cho xu hướng open source AI đang dịch xuống tầng thấp hơn của stack. Khi thị trường đã có quá nhiều agent, wrapper và chat UI, phần khác biệt bền hơn đang chuyển sang kernel, compiler path và hạ tầng inference. Repo của DeepSeek đi đúng hướng đó bằng cách đóng gói các primitive cốt lõi cho LLM vào một thư viện CUDA thống nhất và thiên về hiệu năng.

Điểm làm repo này nổi trong slot hiện tại là sự kết hợp giữa timing trên GitHub Trending và nội dung cập nhật gần đây. Việc nhấn mạnh Mega MoE, FP8xFP4 và JIT nhẹ cho thấy nhóm phát triển đang tối ưu cho các mô hình lớn, nhiều chuyên gia và ngữ cảnh production, không chỉ benchmark đơn lẻ.

Chi tiết

Theo README, DeepGEMM là thư viện kernel tensor core hiệu năng cao, gom các primitive quan trọng của LLM hiện đại vào cùng một codebase CUDA. Phần thú vị là dự án không tự định vị như một “framework tổng quát” trừu tượng hóa quá mức, mà nhấn mạnh vào sự gọn, trực tiếp và đủ sạch để người làm hệ thống có thể học từ đó. Điều này có ý nghĩa lớn ở giai đoạn hiện tại của open source AI, khi bottleneck không còn nằm ở chỗ thiếu model hay thiếu orchestration, mà ngày càng nằm ở cost, latency và khả năng khai thác GPU hiệu quả.

Bản cập nhật mới nhất được nêu ngay trong README làm rõ hướng đi của dự án. Nhóm phát triển đã thêm Mega MoE, FP8xFP4 GEMM, FP4 Indexer, Programmatic Dependent Launch và cải thiện tốc độ JIT. Nếu đọc theo ngôn ngữ sản phẩm, đây là bước chuyển từ thư viện kernel tối ưu đơn lẻ sang một lớp nền cho inference path phức tạp hơn, đặc biệt cho các workload mixture-of-experts và indexing tốc độ cao. Với các đội build model server hay private inference stack, đây là loại cải tiến có thể tác động trực tiếp đến hiệu quả chi phí.

Một điểm đáng giá khác là DeepGEMM theo đuổi runtime compilation khá rõ. README nhấn mạnh rằng kernel được compile qua JIT module nhẹ, không cần quá trình CUDA compilation nặng ở bước cài đặt. Về vận hành, đây là lựa chọn hợp lý: giảm friction triển khai nhưng vẫn giữ không gian tối ưu hóa cho đúng shape và đúng phần cứng. Nó cũng cho thấy cuộc chơi open source AI đang gần với HPC hơn là với “AI app builder”.

Tất nhiên, DeepGEMM không phải repo dành cho số đông. Điều kiện phần cứng như SM90 hoặc SM100, CUDA 12.3+ hay 12.9+, cùng PyTorch mới khiến phạm vi người dùng tương đối hẹp. Nhưng chính vì vậy, giá trị của repo lại lớn ở tầng chiến lược. Những dự án như DeepGEMM là nơi open source cạnh tranh bằng năng lực hệ thống chứ không chỉ bằng số lượng model. Nếu làn sóng tối ưu kernel tiếp tục tăng tốc, phần lợi thế của các công ty AI trong tương lai có thể đến từ stack inference và compute economics nhiều không kém bản thân model.

Nguồn

© 2024 AI News. All rights reserved.