
前沿资讯
1758872408更新
0
导读:谷歌正式推出 Gemini Robotics-ER 1.5,这是首个面向开发者全面开放的“具身推理”系统,能帮助机器人理解空间、规划任务,并在执行复杂操作时做出更可靠的判断。重点:空间理解更快更准、长任务规划更稳、支持思考深度调节,并强化了安全机制。
谷歌宣布,旗下最新的 Gemini Robotics-ER 1.5 已向开发者开放预览使用。这是Gemini在机器人方向上首次对外发布的重要版本,定位于为机器人提供“高阶大脑”,让它们能更自然地理解周围环境并执行复杂任务。
Gemini Robotics-ER 1.5 专注在机器人最难攻克的几个环节:视觉与空间理解、任务规划、进度判断等。比如,你可以让机器人去“把桌上的物品分别放进可回收、厨余和垃圾桶”。要完成这个看似简单的动作,机器人需要查阅本地垃圾分类规则、识别眼前物体、判断类别并逐步完成投放,这一连串动作正是ER 1.5的强项。
主要升级亮点
- 更快更准的空间理解:ER 1.5 能以低延迟生成精确的二维坐标点,理解物体大小、重量和使用方式,支持如“指向能拿起来的东西”这样的快速交互。
- 复杂任务执行力:支持长时间、多步骤的任务规划与成功检测,例如根据一张照片重新整理桌面。
- 可调节的“思考深度”:开发者可以在反应速度和准确率之间自由取舍,让机器人在复杂任务上“多想一会儿”,而在需要即时反应时快速响应。
- 更严格的安全控制:引入改进的语义安全和物理约束检测机制,能避免生成危险或超出机器人物理极限的操作计划。
谷歌将 Gemini Robotics-ER 1.5 比喻为“机器人的高阶大脑”,它不仅能听懂复杂的自然语言指令,还能分解成可执行的操作步骤,并调用合适的工具去完成任务。无论是识别场景、分析物体,还是规划动作,ER 1.5都能承担起中枢指挥的角色。
为什么重要
让机器人在现实环境中顺利完成任务,并非只是“看到”或“听到”这么简单。Gemini Robotics-ER 1.5 提供的,是更接近人类思维方式的能力:在时间和空间两个维度上理解环境,从而 orchestrate(统筹安排)复杂的操作序列。对开发者来说,它可以直接带来更少的试错和更高的成功率。
目前,Gemini Robotics-ER 1.5 已通过 Google AI Studio 和 Gemini API 开放预览,开发者可以直接上手尝试,将其集成到自己的机器人项目中。
参考资料:https://developers.googleblog.com/en/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-15/