Gemini Robotics-ER 1.6: Cải Tiến Embodied Reasoning Cho Robot

Có gì mới

Gemini Robotics-ER 1.6 là phiên bản nâng cấp đáng kể của Gemini Robotics-ER 1.5, chuyên về “embodied reasoning” — khả năng lý luận không gian vật lý để điều khiển robot trong thế giới thực.

Benchmark so với các phiên bản trước:

Cải thiện rõ rệt ở spatial reasoning, pointing, counting, và success detection so với ER 1.5
Vượt trội so với Gemini 3.0 Flash trên các tác vụ robotics
Instrument reading: ER 1.5 đạt 23% → Flash đạt 67% → ER 1.6 đạt 86% → ER 1.6 với agentic vision đạt 93%

Các tính năng chính

Pointing — Nền tảng của spatial reasoning

Pointing là khả năng core, cho phép model:

Xác định vị trí object chính xác và đếm số lượng
Lý luận quan hệ: “vật nhỏ nhất”, “di chuyển X đến Y”
Mapping trajectory và xác định grasp points tối ưu
Xử lý constraints phức tạp: “trỏ vào mọi object đủ nhỏ để vừa trong cái cốc xanh”

Success Detection — Engine của autonomy

Biết khi nào task hoàn thành quan trọng không kém biết cách thực hiện. ER 1.6 cải thiện multi-view reasoning, hiểu đồng thời nhiều camera stream (overhead + wrist-mounted), kể cả trong môi trường có occlusion hoặc ánh sáng kém.

Instrument Reading — Ứng dụng thực tế

Đây là tính năng mới, phát triển qua collaboration với Boston Dynamics. Robot Spot của Boston Dynamics tuần tra các cơ sở công nghiệp và cần đọc:

Pressure gauges tròn
Vertical level indicators
Chemical sight glasses
Digital readouts

Model dùng agentic vision: zoom vào gauge, dùng pointing và code execution để tính toán tỷ lệ và intervals, cuối cùng áp dụng world knowledge để interpret kết quả.

Cách truy cập

Gemini API: Dùng model ID gemini-robotics-er-1.6-preview
Google AI Studio: Thử trực tiếp
Colab: Google cung cấp notebook demo trên GitHub (google-gemini/robotics-samples)

Safety improvements

ER 1.6 được đánh giá là model robotics an toàn nhất của Google đến nay:

Cải thiện compliance với Gemini safety policies trên adversarial spatial reasoning tasks
Tốt hơn ở physical safety constraints (“không xử lý chất lỏng”, “không nhấc vật nặng hơn 20kg”)
+6% accuracy trên text và +10% trên video khi nhận diện rủi ro chấn thương so với Gemini 3.0 Flash

Gemini Robotics-ER 1.6: Cải Tiến Embodied Reasoning Cho Robot

TL;DR

Có gì mới

Các tính năng chính

Pointing — Nền tảng của spatial reasoning

Success Detection — Engine của autonomy

Instrument Reading — Ứng dụng thực tế

Cách truy cập

Safety improvements

Đường dẫn nguồn

Gemini Robotics-ER 1.6: Cải Tiến Embodied Reasoning Cho Robot

TL;DR

Có gì mới

Các tính năng chính

Pointing — Nền tảng của spatial reasoning

Success Detection — Engine của autonomy

Instrument Reading — Ứng dụng thực tế

Cách truy cập

Safety improvements

Đường dẫn nguồn

Cùng bản tin này