Giới thiệu
Google Gemma 4 — dòng open-source model của Google — giờ chạy được trực tiếp trên iPhone với full local inference, không cần kết nối mạng. Đây không phải demo lab: inference thực sự route qua GPU của iPhone và response latency thấp đến mức bất ngờ với hardware consumer.
Các biến thể model
Gemma 4 có nhiều kích cỡ cho các use case khác nhau:
- 31B variant: Cạnh tranh với Qwen 3.5 27B, nhắm đến power users cần raw capability cao hơn
- E2B variant: Được Google AI Edge Gallery mặc định khuyến nghị — nhanh hơn, nhẹ hơn, phù hợp điều kiện on-device thực tế (memory và thermal limits)
- E4B variant: Cân bằng giữa E2B và 31B
Google rõ ràng hướng người dùng về E2B vì lý do thực tế: consumer hardware có giới hạn nhiệt và RAM, E2B ổn định hơn trong production.
Cách bắt đầu
- Tải Google AI Edge Gallery từ App Store
- Chọn model variant phù hợp
- Chạy inference ngay trên thiết bị — không cần API call, không cần cloud
Không có setup phức tạp. Không có API key. Không có chi phí per-request.
Tính năng của Google AI Edge Gallery
App không chỉ là text interface đơn thuần:
- Image recognition — nhận dạng hình ảnh on-device
- Voice interaction — tương tác giọng nói
- Skills framework — mở rộng được, Google đóng khung đây là platform cho dev thử nghiệm, không phải feature demo
Ý nghĩa với dev
Offline capability thay đổi tính toán cho nhiều use case cụ thể:
- Field applications — app chạy ở nơi không có internet (công trường, remote locations)
- Healthcare & enterprise — data nhạy cảm không bao giờ rời thiết bị
- Privacy-sensitive scenarios — khi compliance requirements loại trừ cloud processing hoàn toàn
- Zero API cost — sau khi download model, không còn chi phí inference
Nếu bạn đang build mobile app cần AI mà không muốn phụ thuộc cloud, đây là thời điểm nghiêm túc evaluate on-device inference.