Điểm nổi bật
- Đăng trong vòng vài phút trên Hacker News, cho thấy đây là chủ đề rất mới ở đầu khung 21h–3h.
- Gemma 4 hỗ trợ hơn 140 ngôn ngữ, phù hợp cho ứng dụng Android đa thị trường.
- Hai biến thể E4B và E2B được Google giới thiệu, trong đó E2B được mô tả nhanh hơn khoảng 3x so với E4B.
- Google nói mô hình mới nhanh hơn tới 4x so với thế hệ trước và có thể dùng ít pin hơn tới 60%.
- Preview hiện nhắm vào thiết bị AICore-enabled, nhưng cùng pipeline này được hứa hẹn sẽ nối sang Gemini Nano 4 về sau.
Biểu đồ
Tóm tắt
Google vừa mở đường cho một vòng thảo luận mới trên Hacker News khi đưa Gemma 4 vào AICore Developer Preview. Tâm điểm không nằm ở một bản demo web hay benchmark phòng lab, mà ở việc nhà phát triển có thể bắt đầu thử mô hình ngay trên thiết bị Android tương thích.
Điểm đáng chú ý là hướng đi này đẩy câu chuyện “AI on-device” từ mức tuyên bố chiến lược sang giai đoạn thử nghiệm sản phẩm. Với nhà phát triển ứng dụng, đây là tín hiệu quan trọng hơn nhiều so với việc chỉ có thêm một model mới trên cloud.
Chi tiết
Bài gốc của Google nhấn mạnh rằng Gemma 4 là nền tảng cho thế hệ Gemini Nano 4 tiếp theo. Điều đó khiến cuộc thảo luận trên Hacker News có ý nghĩa vượt ngoài một bản cập nhật SDK thông thường: developer nào bắt đầu viết prompt, tinh chỉnh flow và xác định use case ngay bây giờ có thể tái sử dụng phần lớn công sức khi Gemini Nano 4 chính thức phổ biến hơn trên thiết bị Android cuối năm nay.
Từ góc nhìn sản phẩm, đây là bước dịch chuyển quan trọng. Trong hai năm qua, phần lớn trải nghiệm AI trên mobile vẫn lệ thuộc cloud inference, kéo theo chi phí token, độ trễ mạng và lo ngại quyền riêng tư. Khi Google đưa Gemma 4 vào AICore Developer Preview, bài toán chuyển từ “có làm được trên máy không” sang “nên đưa tác vụ nào lên máy trước”. Các ví dụ mà Google nêu ra như kiểm duyệt bình luận, tính toán, hiểu thời gian, OCR và trích xuất dữ liệu cho thấy họ đang nhắm vào những nhiệm vụ có giá trị cao nhưng cần phản hồi nhanh và ổn định.
Điểm nữa khiến chủ đề này đáng theo dõi là cấu trúc hai kích thước E4B và E2B. Đây không phải chỉ là chuyện chọn model lớn hay nhỏ, mà là gợi ý rõ ràng cho chiến lược phân tầng tính năng: tác vụ nặng hơn có thể dùng E4B, còn tác vụ cần tốc độ và pin tốt hơn có thể chuyển sang E2B. Với đội ngũ làm app doanh nghiệp, điều này mở ra khả năng thiết kế các tính năng AI theo cấp độ dịch vụ ngay trên mobile, thay vì ép mọi yêu cầu về cùng một endpoint cloud.
Ở cấp độ hệ sinh thái, thảo luận này còn phản ánh cuộc đua mới giữa Google, Apple, Qualcomm và các nhà cung cấp thiết bị: ai biến on-device AI từ marketing thành nền tảng sản phẩm thật trước sẽ nắm lợi thế phân phối. Nếu Google giữ đúng lời hứa về tool calling, structured output và system prompts trong giai đoạn preview, Android có thể sớm có một lớp AI native đủ thực dụng để giảm bớt phụ thuộc vào hạ tầng cloud cho nhiều use case phổ thông.