Holo3 đẩy nhanh sức ép tự động hóa lên các nghiệp vụ màn hình

Điểm nổi bật
- 78,85% OSWorld-Verified: Holo3 được công bố là state of the art mới trên benchmark computer use desktop.
- 10B tham số active / 122B tổng: mô hình được tối ưu để giảm chi phí so với các model độc quyền rất lớn.
- 486 tác vụ thực tế: H Corporate Benchmarks mô phỏng nghiệp vụ doanh nghiệp qua 4 nhóm tình huống.
- Multi-app workflows: model được huấn luyện cho các chuỗi thao tác băng qua nhiều ứng dụng cùng lúc.
- Apache 2.0: weights Holo3-35B-A3B được phát hành mở trên Hugging Face.
Biểu đồ
Tóm tắt
Holo3 không chỉ là thêm một model “computer use”. Điểm quan trọng là nó được huấn luyện cho bối cảnh doanh nghiệp, nơi phần lớn lao động tri thức cấp đầu và lao động vận hành số đang sống trong các chuỗi click, copy, đối chiếu, điền form và gửi email qua nhiều hệ thống. Khi model làm tốt lớp thao tác này, các vai trò dựa nặng vào thao tác giao diện sẽ chịu sức ép đầu tiên.
Bài công bố cho thấy Hcompany không dừng ở benchmark chung mà xây cả nhà máy môi trường tổng hợp để mô phỏng phần mềm doanh nghiệp. Điều đó khiến Holo3 đáng theo dõi không phải vì một con số SOTA, mà vì nó nhắm thẳng vào lớp công việc vốn khó tự động hóa bằng API truyền thống.
Chi tiết
Trong nhiều năm, tự động hóa doanh nghiệp bị kẹt giữa hai cực. Nếu hệ thống có API tốt, doanh nghiệp có thể tích hợp khá sạch. Nếu hệ thống cũ, rời rạc hoặc nhiều bước thao tác giao diện, họ phải dùng RPA, vốn mong manh và tốn công bảo trì. Sự xuất hiện của computer-use agents như Holo3 mở ra con đường thứ ba: mô hình nhìn thấy giao diện như con người, suy luận chuỗi hành động và thao tác trực tiếp trên màn hình.
Theo bài công bố, Holo3 đạt 78,85% trên OSWorld-Verified, được giới thiệu là mức state of the art mới. Nhưng con số benchmark chỉ là lớp bề mặt. Điểm quan trọng hơn là kiến trúc huấn luyện “agentic learning flywheel”, kết hợp dữ liệu điều hướng tổng hợp, tăng cường ngoài miền và reinforcement learning trên dữ liệu được lọc kỹ. Đây là cách tiếp cận nhằm tối ưu hai thứ quyết định thành bại của computer-use agent: cảm nhận đúng ngữ cảnh giao diện và ra quyết định đủ ổn định qua nhiều bước.
Hcompany còn xây Synthetic Environment Factory, nơi các coding agents tạo ra môi trường phần mềm doanh nghiệp tổng hợp để huấn luyện và kiểm thử. Từ đó họ dựng H Corporate Benchmarks với 486 tác vụ nhiều bước, trải từ e-commerce, business software, collaboration đến multi-app setup. Ví dụ họ nêu rất sát thực tế: lấy giá thiết bị từ PDF, đối chiếu với ngân sách còn lại của từng nhân viên, rồi tự gửi email phê duyệt hoặc từ chối. Đây chính là kiểu công việc đang chiếm nhiều giờ lao động ở finance ops, procurement, sales ops, admin và hỗ trợ nội bộ.
Ý nghĩa chiến lược nằm ở vùng việc làm bị ảnh hưởng. Những vai trò có giá trị chủ yếu nằm ở việc “vận hành hệ thống số” thay vì ra quyết định cấp cao sẽ chịu sức ép lớn nhất. Nếu một agent có thể mở phần mềm, đọc PDF, tra thông tin, điền form, chuyển ngữ cảnh giữa ứng dụng và hoàn tất chuỗi công việc, thì phần việc của các nhóm back office thao tác màn hình sẽ bị co lại. Điều này không có nghĩa con người biến mất ngay. Giai đoạn đầu, doanh nghiệp vẫn cần người giám sát, xử lý ngoại lệ, kiểm tra tuân thủ và chỉnh quy trình. Nhưng lượng đầu việc thuần tác nghiệp chắc chắn sẽ bị bào mòn.
Ở chiều ngược lại, Holo3 cũng gợi ra một lớp nghề mới: thiết kế môi trường số dễ điều hướng hơn cho agent, quản trị guardrail, giám sát workflow, và phân tách phần nào nên để AI làm, phần nào phải giữ người duyệt. Nghĩa là AI không chỉ thay thế thao tác, mà còn tái định nghĩa kỹ năng trong bộ phận vận hành. Từ góc nhìn lãnh đạo, đây là tín hiệu cần rà soát sớm những quy trình đang tiêu tốn nhiều thao tác giao diện, vì đó là nơi AI agent có thể tạo ROI rõ nhất, đồng thời cũng là nơi nhạy cảm nhất về chuyển dịch nhân sự.