EXAONE 4.5 33B, mô hình vision-language open-weight mới của LG AI Research - Open Source

Điểm nổi bật

Stars: khoảng 6.63k lượt quan tâm trên Hugging Face trending tại thời điểm crawl.
Ngôn ngữ: hệ sinh thái Python, có mã nguồn và tài liệu triển khai qua TensorRT-LLM, vLLM, SGLang.
Tính năng chính: model 33B tham số, trong đó khoảng 1.29B dành cho vision encoder.
Tính năng chính: mạnh ở document understanding, OCRBench v2, CharXiv và suy luận ngữ cảnh tiếng Hàn.
Giá trị sử dụng: đáng chú ý với doanh nghiệp cần VLM open-weight để xử lý tài liệu, biểu đồ, hình ảnh chuyên ngành.

Biểu đồ

flowchart LR A[Ảnh hoặc tài liệu] --> B[Vision Encoder] B --> C[EXAONE 4.5 33B] D[Prompt văn bản] --> C C --> E[OCR và hiểu tài liệu] C --> F[Suy luận đa phương thức]

Tóm tắt

EXAONE 4.5 33B là bản open-weight mới của LG AI Research vừa nổi lên trên Hugging Face trending trong khung giờ slot 15h. Dự án đáng chú ý vì đây là bước mở rộng từ dòng EXAONE ngôn ngữ thuần sang vision-language model, đồng thời giữ trọng tâm rất rõ vào các use case doanh nghiệp như đọc tài liệu, OCR, chart understanding và reasoning ngữ cảnh tiếng Hàn.

Khác với nhiều model open-weight chỉ nhắm leaderboard tổng quát, EXAONE 4.5 cố gắng kể một câu chuyện sản phẩm khá rõ: đủ mạnh cho đa phương thức, nhưng vẫn hướng tới triển khai thực tế thông qua vLLM, TensorRT-LLM, SGLang và OpenAI-compatible serving. Điều này làm nó có giá trị tham khảo cao với các đội đang cân nhắc hạ tầng VLM nội bộ.

Chi tiết

Theo trang model card, EXAONE 4.5 là VLM open-weight đầu tiên của LG AI Research, gồm khoảng 31.7B tham số ngôn ngữ và 1.29B tham số cho vision encoder, tổng cộng 33B. Kiến trúc dùng dense model với context length 262,144 tokens, hybrid attention và reasoning mode bật mặc định. Đây là thông số đáng chú ý vì nó đặt model vào nhóm đủ lớn để xử lý workflow tài liệu dài, nhưng vẫn còn khả thi hơn nhiều so với các MoE hàng trăm tỷ tham số nếu doanh nghiệp muốn tự host.

Điểm mạnh mà đội phát triển nhấn vào không phải image chat chung chung, mà là document understanding và Korean contextual reasoning. Trong bảng đánh giá, EXAONE 4.5 đạt kết quả cạnh tranh trên AI2D, ChartQAPro, CharXiv, OCRBench v2 và OmniDocBench. Ở nhóm benchmark ngôn ngữ, model cũng giữ mức khá trên AIME 2025, AIME 2026, GPQA-Diamond và LiveCodeBench. Điều này gợi ý nó không chỉ là một encoder ảnh gắn thêm vào LLM, mà thực sự hướng tới các workflow vừa đọc tài liệu vừa suy luận.

Một ưu điểm thực tế nữa là tài liệu triển khai rất rõ. Model card cung cấp sẵn hướng dẫn cho TensorRT-LLM, vLLM, SGLang và cách dùng qua OpenAI-compatible API. Với các đội platform, đây là chi tiết quan trọng vì chi phí tích hợp thường quyết định adoption nhiều hơn vài điểm benchmark. Việc model được đưa lên Hugging Face trending trong vài giờ gần đây cũng cho thấy cộng đồng đang chú ý tới một lựa chọn open-weight mới ở lớp VLM tầm trung-cao.

Dĩ nhiên, EXAONE 4.5 không phải giải pháp “rẻ và nhẹ”. Dù nhỏ hơn các MoE cực lớn, nhu cầu phần cứng vẫn cao, đặc biệt nếu muốn tận dụng đủ context dài và reasoning mode. Ngoài ra, một số benchmark tổng quát vẫn thua các model frontier thương mại hoặc một số đối thủ 27B-235B ở tác vụ nhất định. Nhưng nếu tiêu chí là mô hình mở, có GitHub, có đường triển khai rõ ràng và tối ưu cho đọc tài liệu doanh nghiệp, EXAONE 4.5 là một ứng viên đáng theo dõi trong làn sóng VLM open-weight 2026.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn