ERAI News

Laguna XS.2 — mô hình coding agent open-weight từ Poolside

Python 228 stars 1 giờ trước

Điểm nổi bật

  • Độ mới: model card trên Hugging Face hiển thị updated about 13 hours ago, còn blog phát hành của Poolside đăng ngày 2026-04-28 làm nền kỹ thuật cho bản mở trọng số.
  • Quy mô mô hình: 33B tổng tham số, nhưng chỉ 3B active parameters/token, tối ưu cho suy luận MoE chi phí thấp hơn.
  • Hiệu năng công bố: đạt 44,5% SWE-bench Pro, 68,2% SWE-bench Verified30,1% Terminal-Bench 2.0 theo Poolside.
  • Khả năng triển khai: hỗ trợ chạy local, có nhấn mạnh mức 36 GB RAM trên Mac và license Apache 2.0.
  • Độ quan tâm: đang có 228 lượt thích và gần 16,8 nghìn lượt tải trên Hugging Face.

Biểu đồ

flowchart LR A[Bài toán coding agent] --> B[Laguna XS.2] B --> C[Tool use và reasoning] B --> D[Long-horizon debugging] B --> E[Chạy local hoặc API] C --> F[SWE-bench / Terminal-Bench]

Tóm tắt

Laguna XS.2 là một phát hành open-weight đáng chú ý ở lớp “practical agent model”: không cố thắng bằng quy mô tuyệt đối, mà nhắm vào hiệu quả kích hoạt, suy luận dài hơi và bài toán coding agent có hành động nhiều bước. Với 33B tổng tham số nhưng chỉ 3B active mỗi token, Poolside đang đặt cược vào chi phí vận hành hợp lý hơn cho các đội muốn tự host hoặc tinh chỉnh agent coding.

Giá trị chiến lược của bản phát hành này nằm ở chỗ nó đi kèm một câu chuyện hoàn chỉnh hơn chỉ là checkpoint. Poolside công bố cả benchmark, cách huấn luyện, định vị sản phẩm và định hướng agent runtime. Điều đó làm Laguna XS.2 trở thành một ứng viên nghiêm túc cho các nhóm đang thử xây code agent nội bộ thay vì chỉ là một model để benchmark cho vui.

Chi tiết

Laguna XS.2 là mô hình open-weight đầu tiên trong gia đình Laguna của Poolside. Theo model card trên Hugging Face, đây là mô hình Mixture-of-Experts 33B tổng tham số với 3B active parameters cho mỗi token, thiết kế cho agentic coding và long-horizon work trên máy cục bộ. Poolside nhấn mạnh mô hình dùng Sliding Window Attention kết hợp global attention, cùng cơ chế per-head gating trong 30/40 layer để giảm chi phí bộ nhớ KV cache và tăng tốc suy luận. Điểm này quan trọng vì các workflow agent coding thường không chỉ trả lời một phát rồi xong; chúng cần lặp, gọi công cụ, đọc log, sửa lỗi và giữ ngữ cảnh đủ dài.

Trong bài blog “Laguna XS.2 and M.1: A Deeper Dive”, Poolside đặt Laguna XS.2 như thế hệ MoE thứ hai, kế thừa kinh nghiệm từ Laguna M.1 nhưng nén xuống quy mô phù hợp hơn với cộng đồng open-weight. Họ công bố các chỉ số 68,2% trên SWE-bench Verified, 44,5% trên SWE-bench Pro và 30,1% trên Terminal-Bench 2.0. Dù các con số này không phải dẫn đầu tuyệt đối so với mọi đối thủ đóng, nó cho thấy mô hình này đã bước qua ngưỡng “demo đẹp” để trở thành công cụ thực chiến đủ cạnh tranh trong lớp open model coding-focused.

Một chi tiết đáng giá với người dùng doanh nghiệp và đội kỹ thuật nhỏ là khả năng chạy local. Model card nói rõ mô hình đủ gọn để chạy trên Mac 36 GB RAM, đồng thời có sẵn trên Ollama và được phát hành dưới Apache 2.0. Điều này mở ra ba hướng sử dụng thực tế: tự host cho môi trường nhạy cảm, tinh chỉnh cho codebase nội bộ, hoặc dùng làm agent backend trong sandbox kiểm soát chặt. Với các tổ chức lo về bảo mật mã nguồn, đây là khác biệt lớn so với việc phụ thuộc hoàn toàn vào model API đóng.

Tuy vậy, giới hạn của Laguna XS.2 cũng khá rõ. Nó được tối ưu cho coding và long-horizon agentic work, nên không phải lựa chọn đa dụng cho mọi tác vụ doanh nghiệp. Ngoài ra, benchmark công bố vẫn cần được kiểm chứng rộng hơn bởi cộng đồng khi chạy trong những harness khác nhau, nhất là trên tác vụ production có toolchain riêng. Nhưng trong khung thời gian quét này, đây vẫn là một bản cập nhật open source rất đáng ghi nhận: mô hình đủ mới, có số liệu tương đối minh bạch, có license mở, có đường triển khai local và nhắm trúng phân khúc mà thị trường đang cần nhất — agent biết làm việc chứ không chỉ biết trả lời.

Nguồn

© 2024 AI News. All rights reserved.