27e3cb6717590c2cf4c38d0a7c7de810

2026年4月15日,谷歌DeepMind正式发布了机器人专用视觉语言模型Gemini Robotics-ER 1.6。这次升级并非简单的参数迭代,而是解决了工业场景中一个长期存在的“痛点”——让机器人真正“看懂”复杂的物理世界。

在化工厂、电站等工业设施中,遍布着各种压力表、温度计和液位计。过去,机器人虽然能走到设备前拍照,却无法理解表盘上指针的含义,导致人工巡检依然无法被完全替代。Gemini Robotics-ER 1.6的出现改变了这一现状。通过与波士顿动力(Boston Dynamics)的深度合作,该模型被成功搭载于Spot四足机器人上,使其具备了高精度的仪表读数能力。

这一能力的背后,是谷歌全新引入的“智能体视觉”(Agentic Vision)技术。不同于传统的图像识别,ER 1.6能够像人类专家一样进行“视觉推理”:它会先放大图像看清刻度,通过点位标注锁定指针位置,再结合代码执行计算比例,最终得出精确读数。官方数据显示,在结合Agentic Vision后,机器人在仪表读数 任务 中的成功率从前代的23%飙升至93%,实现了300%的性能飞跃。

除了读表,ER 1.6在空间理解上也更加成熟。它能准确识别并计数视野中的工具,甚至在多视角下判断任务是否完成(例如确认蓝色笔是否已放入笔筒)。作为谷歌迄今最安全的机器人模型,它在物理安全约束的遵守上也优于所有前代版本。这一发布标志着具身智能正从“执行指令”向“自主理解环境”迈进,为工业无人化运维提供了切实可行的解决方案。