Gemini bắt đầu tự động hóa nhiệm vụ đa bước ngay trên Android

Điểm nổi bật

Hỗ trợ tác vụ nhiều bước: Gemini có thể xử lý các quy trình như đặt xe, gọi đồ ăn và mua nhu yếu phẩm.
Chỉ mở beta trên thiết bị chọn lọc: giai đoạn đầu áp dụng cho Pixel 10, Pixel 10 Pro và Samsung Galaxy S26.
Phạm vi app còn hẹp: Google mới hỗ trợ nhóm ứng dụng đồ ăn, grocery và rideshare tại Mỹ và Hàn Quốc.
Có lớp giám sát trực tiếp: người dùng theo dõi tiến trình theo thời gian thực và dừng nếu tác vụ chạy sai.
AI chạy trong cửa sổ ảo bảo mật: Gemini chỉ truy cập một số app được cho phép, không mở toàn bộ dữ liệu máy.

Biểu đồ

flowchart LR A[Lệnh người dùng] --> B[Gemini Agent] B --> C[App gọi xe] B --> D[App giao đồ ăn] B --> E[App mua nhu yếu phẩm] C --> F[Người dùng giám sát] D --> F E --> F F --> G[Hoàn tất hoặc dừng tác vụ]

Tóm tắt

Google đang đẩy Gemini tiến thêm một bước từ vai trò trợ lý trả lời sang một lớp điều phối tác vụ trên thiết bị. Thay vì chỉ gợi ý nên làm gì, Gemini bắt đầu có thể thao tác trong app để giúp người dùng hoàn thành những việc lặp lại như gọi xe hoặc đặt đồ ăn.

Điểm đáng chú ý không chỉ là tính năng mới, mà là cách Google đóng gói nó như một hệ thống bán tự động có giám sát. Điều đó cho thấy thị trường agent cá nhân đang bước từ màn trình diễn công nghệ sang giai đoạn triển khai thực dụng, nơi bảo mật, quyền kiểm soát và phạm vi app được khóa rất chặt.

Chi tiết

Theo TechCrunch, Google công bố loạt cập nhật mới cho hệ sinh thái Android với trọng tâm là biến Gemini thành một lớp điều phối hành động thay vì chỉ là giao diện hội thoại. Tính năng mới cho phép AI thực hiện các tác vụ nhiều bước như đặt Uber, gọi đồ ăn hay mua hàng nhu yếu phẩm. Đây là thay đổi chiến lược vì nó đưa AI tiến gần hơn tới khái niệm "trợ lý có thể làm việc", tức không dừng ở khâu gợi ý hoặc tóm tắt thông tin.

Ở giai đoạn đầu, tính năng chỉ khả dụng trên một số thiết bị cao cấp như Pixel 10, Pixel 10 Pro và Samsung Galaxy S26, đồng thời giới hạn ở Mỹ và Hàn Quốc. Việc rollout hẹp cho thấy Google đang rất thận trọng với rủi ro thực thi sai, vốn là điểm yếu cố hữu của mọi hệ thống agent. Nếu AI được phép thao tác trên app thật, một lỗi nhỏ có thể dẫn tới đặt nhầm món, gửi sai đơn hàng hoặc phát sinh chi phí ngoài ý muốn. Bởi vậy, Google đi theo hướng triển khai trong một "cửa sổ ảo bảo mật", nơi Gemini chỉ truy cập các app được cấp phép và người dùng có thể xem tiến trình theo thời gian thực.

Cách thiết kế này phản ánh bài toán trung tâm của lớp agent tiêu dùng trong năm 2026. Thị trường không còn tranh luận liệu AI có đủ thông minh để hiểu yêu cầu cơ bản hay không. Tranh luận đã chuyển sang việc AI có thể hoàn tất quy trình mà vẫn giữ được niềm tin người dùng hay không. Google đang trả lời bằng ba lớp kiểm soát: phải có lệnh kích hoạt rõ ràng từ chủ máy, có khả năng quan sát lúc tác vụ chạy và có phạm vi truy cập bị giới hạn. Đây là kiến trúc hợp lý để tránh việc agent trở thành một tiến trình "quá quyền" trong điện thoại cá nhân.

Tác động cạnh tranh cũng đáng chú ý. OpenAI, Anthropic và nhiều startup agent đang đẩy mạnh mô hình tác nhân có thể thao tác trên máy tính hoặc web. Google có lợi thế đặc biệt vì kiểm soát hệ điều hành Android và có thể nhúng agent trực tiếp vào trải nghiệm thiết bị. Nếu Gemini làm tốt ở các use case đơn giản nhưng tần suất cao, Google sẽ có một cửa vào rất mạnh để chiếm thời gian sử dụng hàng ngày. Trong dài hạn, giá trị không nằm ở việc AI trả lời tốt hơn vài phần trăm, mà ở việc nó lấy đi bao nhiêu thao tác lặp lại khỏi tay người dùng. Vì thế, động thái này đáng đọc như tín hiệu cho thấy cuộc đua AI đang chuyển xuống lớp thực thi trên thiết bị cá nhân.

Nguồn

TechCrunch

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn

Leave a Reply