Có gì mới
Gemini Robotics-ER 1.6 là phiên bản nâng cấp đáng kể của Gemini Robotics-ER 1.5, chuyên về “embodied reasoning” — khả năng lý luận không gian vật lý để điều khiển robot trong thế giới thực.
Benchmark so với các phiên bản trước:
- Cải thiện rõ rệt ở spatial reasoning, pointing, counting, và success detection so với ER 1.5
- Vượt trội so với Gemini 3.0 Flash trên các tác vụ robotics
- Instrument reading: ER 1.5 đạt 23% → Flash đạt 67% → ER 1.6 đạt 86% → ER 1.6 với agentic vision đạt 93%
Các tính năng chính
Pointing — Nền tảng của spatial reasoning
Pointing là khả năng core, cho phép model:
- Xác định vị trí object chính xác và đếm số lượng
- Lý luận quan hệ: “vật nhỏ nhất”, “di chuyển X đến Y”
- Mapping trajectory và xác định grasp points tối ưu
- Xử lý constraints phức tạp: “trỏ vào mọi object đủ nhỏ để vừa trong cái cốc xanh”
Success Detection — Engine của autonomy
Biết khi nào task hoàn thành quan trọng không kém biết cách thực hiện. ER 1.6 cải thiện multi-view reasoning, hiểu đồng thời nhiều camera stream (overhead + wrist-mounted), kể cả trong môi trường có occlusion hoặc ánh sáng kém.
Instrument Reading — Ứng dụng thực tế
Đây là tính năng mới, phát triển qua collaboration với Boston Dynamics. Robot Spot của Boston Dynamics tuần tra các cơ sở công nghiệp và cần đọc:
- Pressure gauges tròn
- Vertical level indicators
- Chemical sight glasses
- Digital readouts
Model dùng agentic vision: zoom vào gauge, dùng pointing và code execution để tính toán tỷ lệ và intervals, cuối cùng áp dụng world knowledge để interpret kết quả.
Cách truy cập
- Gemini API: Dùng model ID
gemini-robotics-er-1.6-preview - Google AI Studio: Thử trực tiếp
- Colab: Google cung cấp notebook demo trên GitHub (google-gemini/robotics-samples)
Safety improvements
ER 1.6 được đánh giá là model robotics an toàn nhất của Google đến nay:
- Cải thiện compliance với Gemini safety policies trên adversarial spatial reasoning tasks
- Tốt hơn ở physical safety constraints (“không xử lý chất lỏng”, “không nhấc vật nặng hơn 20kg”)
- +6% accuracy trên text và +10% trên video khi nhận diện rủi ro chấn thương so với Gemini 3.0 Flash