机器人终于看懂仪表盘：谷歌Gemini ER 1.6如何让工业巡检成功率飙升300%？

27e3cb6717590c2cf4c38d0a7c7de810

2026年4月15日，谷歌DeepMind正式发布了机器人专用视觉语言模型Gemini Robotics-ER 1.6。这次升级并非简单的参数迭代，而是解决了工业场景中一个长期存在的“痛点”——让机器人真正“看懂”复杂的物理世界。

在化工厂、电站等工业设施中，遍布着各种压力表、温度计和液位计。过去，机器人虽然能走到设备前拍照，却无法理解表盘上指针的含义，导致人工巡检依然无法被完全替代。Gemini Robotics-ER 1.6的出现改变了这一现状。通过与波士顿动力（Boston Dynamics）的深度合作，该模型被成功搭载于Spot四足机器人上，使其具备了高精度的仪表读数能力。

这一能力的背后，是谷歌全新引入的“智能体视觉”（Agentic Vision）技术。不同于传统的图像识别，ER 1.6能够像人类专家一样进行“视觉推理”：它会先放大图像看清刻度，通过点位标注锁定指针位置，再结合代码执行计算比例，最终得出精确读数。官方数据显示，在结合Agentic Vision后，机器人在仪表读数任务中的成功率从前代的23%飙升至93%，实现了300%的性能飞跃。

除了读表，ER 1.6在空间理解上也更加成熟。它能准确识别并计数视野中的工具，甚至在多视角下判断任务是否完成（例如确认蓝色笔是否已放入笔筒）。作为谷歌迄今最安全的机器人模型，它在物理安全约束的遵守上也优于所有前代版本。这一发布标志着具身智能正从“执行指令”向“自主理解环境”迈进，为工业无人化运维提供了切实可行的解决方案。

机器人终于看懂仪表盘：谷歌Gemini ER 1.6如何让工业巡检成功率飙升300%？

相关阅读