Skip to content
tinAI
Go back

Gemini Robotics-ER 1.6: Model Reasoning cho Robot Thế Hệ Mới

Bài gốc: Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning

Tác giả: Laura Graesser và Peng Xu (Google DeepMind)

Ngày đăng: Dịch ngày:

TL;DR

Gemini Robotics-ER 1.6 là model reasoning cho robot có thể đọc đồng hồ áp suất, sight glasses và các thiết bị đo lường công nghiệp — capability mới được phát triển với Boston Dynamics. Có trên Gemini API và AI Studio ngay hôm nay. Model hoạt động như reasoning layer, có thể gọi Search, VLA models, hay bất kỳ function nào.

Tóm tắt

Gemini Robotics-ER 1.6 là bản nâng cấp lớn của model reasoning-first từ Google DeepMind, tập trung vào việc giúp robot hiểu và tương tác với môi trường vật lý tốt hơn. Model có trên Gemini API và Google AI Studio ngay hôm nay.

Điểm mới so với ER 1.5:

Phát hiện chính

Pointing — nền tảng của spatial reasoning

Pointing là ability để model xác định vị trí chính xác các đối tượng trong ảnh. Gemini Robotics-ER 1.6 dùng pointing như intermediate steps cho các tác vụ phức tạp:

So với ER 1.5: model cũ fail đếm búa, bỏ sót kéo, hallucinate xe cút kít không có trong ảnh. ER 1.6 xử lý đúng tất cả.

Success Detection — biết khi nào xong là xong

Trong robotics, biết khi nào một task hoàn thành quan trọng không kém biết cách bắt đầu. Success detection giúp robot quyết định: thử lại hay chuyển sang bước tiếp theo.

ER 1.6 cải thiện multi-view reasoning — hiểu nhiều camera streams đồng thời (overhead + wrist-mounted) và mối quan hệ giữa chúng trong môi trường dynamic hoặc bị che khuất.

Instrument Reading — đọc đồng hồ công nghiệp

Capability hoàn toàn mới, phát triển với Boston Dynamics Spot. Robot đi tuần tra nhà máy, chụp ảnh pressure gauges, thermometers, chemical sight glasses → model đọc và báo cáo số liệu.

Tại sao khó: Cần nhận diện kim đồng hồ, vạch chia, đơn vị đo, xử lý góc chụp lệch, đọc text trên mặt đồng hồ, kết hợp nhiều kim chỉ decimal places khác nhau.

Cách model làm: Dùng agentic vision (reasoning + code execution):

  1. Zoom vào chi tiết nhỏ
  2. Pointing để xác định các điểm quan trọng
  3. Code execution để tính tỷ lệ và khoảng cách
  4. World knowledge để diễn giải đơn vị

Kết quả: đọc chính xác xuống sub-tick accuracy.

Kiến trúc: Model như reasoning layer

Điểm quan trọng nhất cho developer: Gemini Robotics-ER 1.6 không phải là model điều khiển robot trực tiếp. Nó là high-level reasoning model — xử lý tác vụ bằng cách gọi:

Đây là kiến trúc agent-first: reasoning layer tách biệt với execution layer. Nếu bạn đang build robot applications, đây là pattern bạn nên follow.

Ý nghĩa với Dev

Truy cập ngay: Gemini API + Google AI Studio. Kèm Colab demo với examples cụ thể.

Use cases thực tế:

Điều cần lưu ý: Đây vẫn là preview API. Pricing và production SLA chưa được công bố rõ. Test trong staging trước khi đưa vào production.


Read Original (EN) Quay lại Newsletter