Skip to content
tinAI
Go back

Gemini Robotics-ER 1.6: Cải Tiến Embodied Reasoning Cho Robot

Bài gốc: Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning

Tác giả: Laura Graesser and Peng Xu

Ngày đăng: Dịch ngày:

TL;DR

Google DeepMind phát hành Gemini Robotics-ER 1.6 với spatial reasoning, success detection, và khả năng đọc instrument gauge cải thiện đáng kể. Model đã available qua Gemini API và Google AI Studio ngay hôm nay.

Có gì mới

Gemini Robotics-ER 1.6 là phiên bản nâng cấp đáng kể của Gemini Robotics-ER 1.5, chuyên về “embodied reasoning” — khả năng lý luận không gian vật lý để điều khiển robot trong thế giới thực.

Benchmark so với các phiên bản trước:

Các tính năng chính

Pointing — Nền tảng của spatial reasoning

Pointing là khả năng core, cho phép model:

Success Detection — Engine của autonomy

Biết khi nào task hoàn thành quan trọng không kém biết cách thực hiện. ER 1.6 cải thiện multi-view reasoning, hiểu đồng thời nhiều camera stream (overhead + wrist-mounted), kể cả trong môi trường có occlusion hoặc ánh sáng kém.

Instrument Reading — Ứng dụng thực tế

Đây là tính năng mới, phát triển qua collaboration với Boston Dynamics. Robot Spot của Boston Dynamics tuần tra các cơ sở công nghiệp và cần đọc:

Model dùng agentic vision: zoom vào gauge, dùng pointing và code execution để tính toán tỷ lệ và intervals, cuối cùng áp dụng world knowledge để interpret kết quả.

Cách truy cập

Safety improvements

ER 1.6 được đánh giá là model robotics an toàn nhất của Google đến nay:


Read Original (EN) Quay lại Newsletter