谷歌发布Gemini Robotics-ER 1.5：为机器人带来“高阶大脑”-AI前沿快讯-AI工具导航

谷歌发布Gemini Robotics-ER 1.5：为机器人带来“高阶大脑”

导读：谷歌正式推出 Gemini Robotics-ER 1.5，这是首个面向开发者全面开放的“具身推理”系统，能帮助机器人理解空间、规划任务，并在执行复杂操作时做出更可靠的判断。重点：空间理解更快更准、长任务规划更稳、支持思考深度调节，并强化了安全机制。

谷歌宣布，旗下最新的 Gemini Robotics-ER 1.5 已向开发者开放预览使用。这是Gemini在机器人方向上首次对外发布的重要版本，定位于为机器人提供“高阶大脑”，让它们能更自然地理解周围环境并执行复杂任务。

Gemini Robotics-ER 1.5 专注在机器人最难攻克的几个环节：视觉与空间理解、任务规划、进度判断等。比如，你可以让机器人去“把桌上的物品分别放进可回收、厨余和垃圾桶”。要完成这个看似简单的动作，机器人需要查阅本地垃圾分类规则、识别眼前物体、判断类别并逐步完成投放，这一连串动作正是ER 1.5的强项。

主要升级亮点

更快更准的空间理解：ER 1.5 能以低延迟生成精确的二维坐标点，理解物体大小、重量和使用方式，支持如“指向能拿起来的东西”这样的快速交互。
复杂任务执行力：支持长时间、多步骤的任务规划与成功检测，例如根据一张照片重新整理桌面。
可调节的“思考深度”：开发者可以在反应速度和准确率之间自由取舍，让机器人在复杂任务上“多想一会儿”，而在需要即时反应时快速响应。
更严格的安全控制：引入改进的语义安全和物理约束检测机制，能避免生成危险或超出机器人物理极限的操作计划。

谷歌将 Gemini Robotics-ER 1.5 比喻为“机器人的高阶大脑”，它不仅能听懂复杂的自然语言指令，还能分解成可执行的操作步骤，并调用合适的工具去完成任务。无论是识别场景、分析物体，还是规划动作，ER 1.5都能承担起中枢指挥的角色。

为什么重要

让机器人在现实环境中顺利完成任务，并非只是“看到”或“听到”这么简单。Gemini Robotics-ER 1.5 提供的，是更接近人类思维方式的能力：在时间和空间两个维度上理解环境，从而 orchestrate（统筹安排）复杂的操作序列。对开发者来说，它可以直接带来更少的试错和更高的成功率。

目前，Gemini Robotics-ER 1.5 已通过 Google AI Studio 和 Gemini API 开放预览，开发者可以直接上手尝试，将其集成到自己的机器人项目中。

参考资料:https://developers.googleblog.com/en/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-15/