Anthropic đẩy tính năng 'dreaming' để AI agent tự rút kinh nghiệm
Điểm nổi bật
- Ra mắt lúc 5:09 PM PT ngày 7/5: tương ứng 7:09 sáng 8/5 giờ Việt Nam, nằm trong slot 3.
- 3 nâng cấp cùng lúc: Anthropic công bố dreaming, outcomes và multi-agent orchestration.
- Harvey báo cáo hiệu quả tăng khoảng 6 lần: task completion rate tăng mạnh sau khi áp dụng dreaming.
- Wisedocs giảm 50% thời gian rà soát hồ sơ: outcomes cho thấy tác động trực tiếp tới workflow tài liệu y tế.
- Anthropic tiết lộ tăng trưởng 80x annualized: cao hơn nhiều so với kế hoạch nội bộ 10x.
Biểu đồ
Tóm tắt
Anthropic vừa nâng Claude Managed Agents từ mức “tác nhân biết làm việc” lên mức “tác nhân biết cải thiện cách làm việc”. Tính năng dreaming cho phép agent xem lại các phiên trước, rút ra ghi chú và playbook cho lần chạy sau, thay vì lặp lại sai lầm trong từng phiên riêng lẻ.
Điểm đáng chú ý không chỉ là một tính năng mới. Anthropic đang ghép dreaming, outcomes và multi-agent orchestration thành một vòng lặp cải tiến liên tục: agent làm việc, agent khác chấm chất lượng, rồi hệ thống tự kết tinh kinh nghiệm. Nếu hoạt động ổn định trong môi trường doanh nghiệp, đây là bước tiến quan trọng để agent AI trở nên đáng tin hơn ở khâu vận hành thực tế.
Chi tiết
Thông báo của Anthropic đáng chú ý vì nó chạm vào đúng điểm yếu lâu nay của agent AI: làm được một lần không đồng nghĩa làm tốt hơn ở lần sau. Theo VentureBeat, công ty đã giới thiệu tính năng “dreaming” cho Claude Managed Agents tại hội nghị Code with Claude. Thay vì lưu bộ nhớ kiểu đơn giản, dreaming vận hành như một tiến trình định kỳ: nó xem lại các phiên làm việc trước, nhận ra mẫu sai lầm lặp lại, chắt lọc workflow hiệu quả, rồi ghi lại thành ghi chú và playbook để phiên sau tham chiếu.
Cách tiếp cận này khác đáng kể với khái niệm memory thông thường. Anthropic nhấn mạnh dreaming không cập nhật trọng số mô hình; nó không biến model thành thứ tự huấn luyện lại chính mình trong bóng tối. Thay vào đó, hệ thống chỉ tạo ra lớp tri thức có thể kiểm tra được bằng con người. Đây là chi tiết quan trọng về quản trị: doanh nghiệp có thể audit những gì agent “học”, thay vì chấp nhận một mô hình thay đổi hành vi mà không nhìn thấy nguyên nhân.
Anthropic không tung dreaming một mình. Hãng đồng thời đưa outcomes và multi-agent orchestration lên public beta. Outcomes cho phép nhà phát triển đặt rubric thành công, rồi giao cho một grader agent độc lập chấm kết quả. Nếu chưa đạt chuẩn, agent làm việc sẽ lặp lại. Multi-agent orchestration thì chia nhiệm vụ lớn thành các phần việc cho nhiều agent chuyên biệt, mỗi agent có context riêng. Khi ghép ba lớp này lại, Anthropic đang dựng một kiến trúc agent vừa biết phân công, vừa biết tự chấm, vừa biết tự tích lũy kinh nghiệm.
Tín hiệu ban đầu khá mạnh. Harvey cho biết tỷ lệ hoàn thành tác vụ tăng khoảng 6 lần sau khi dùng dreaming. Wisedocs giảm 50% thời gian rà soát tài liệu nhờ outcomes. Netflix thì dùng multi-agent orchestration để xử lý log từ hàng trăm bản build song song. Các ví dụ này cho thấy Anthropic không định vị đây là tính năng trình diễn; hãng đang nhắm thẳng tới các workload doanh nghiệp nhiều bước, nơi sai số nhỏ có thể tích tụ thành chi phí lớn.
Bối cảnh kinh doanh cũng rất quan trọng. Dario Amodei tiết lộ Anthropic đạt mức tăng trưởng annualized 80x trong quý I/2026, vượt xa kế hoạch 10x. API volume tăng gần 70x so với cùng kỳ. Con số này cho thấy nhu cầu thị trường đang đến nhanh hơn năng lực tính toán mà công ty từng chuẩn bị. Khi compute trở thành điểm nghẽn, việc cải thiện chất lượng mỗi lần chạy agent càng có giá trị kinh tế: nếu agent học tốt hơn, doanh nghiệp có thể giảm số vòng lặp vô ích và tăng tỷ lệ hoàn thành công việc hữu dụng trên mỗi đơn vị compute.
Rủi ro vẫn còn. Dreaming đòi hỏi niềm tin rằng agent có thể viết “ghi chú cho tương lai” đủ đúng để không khuếch đại sai lệch cũ. Anthropic đã cố giảm lo ngại đó bằng khả năng audit và bằng grader độc lập, nhưng câu hỏi về hallucination ở tầng workflow vẫn chưa biến mất. Dù vậy, xét trên hướng đi sản phẩm, Anthropic đang tiến gần hơn tới loại agent mà doanh nghiệp thực sự muốn mua: không chỉ thông minh ở thời điểm hiện tại, mà còn biết trở nên bớt ngốc hơn theo thời gian.