Google发布Gemini 3.1 Pro:ARC-AGI成绩翻倍,深度推理进入“可量化”时代

前沿资讯 1771579851更新

0

Gemini 团队正式发布了 Gemini 3.1 Pro

相比于上周发布的专门针对科学研究的 Deep Think,3.1 Pro 更像是将那种“深思考”的能力平权化,转化为日常开发者、架构师和产品管理者触手可及的通用核心智能。

在本次更新中,最具指标意义的数据是:Gemini 3.1 Pro 在 ARC-AGI-2(评估模型解决全新逻辑模式能力的基准测试)中取得了 77.1% 的验证分数。

为什么这个数据重要? 因为 ARC-AGI 不同于通过背诵 GitHub 仓库就能高分的测试,它模拟的是软件开发中真实的“突发状况”。

3.1 Pro 正在从一种“概率预测机器”转向一种“核心推理引擎”。对于需要处理复杂私有协议、非标业务逻辑的团队来说,这种逻辑稳定性的翻倍,直接决定了 Agent 能否在生产环境中落地。

Google 在新闻稿中通过四个维度展示了 3.1 Pro 如何将这种“进化的推理能力”转化为生产力:

  • 代码级动画(Code-based Animation): 模型现在可以直接通过自然语言生成可交互、网站原生的 SVG 动画。由于是基于代码而非像素,这些动效保持了极小的体积和无限的缩放能力。


  • 复杂系统合成(Complex System Synthesis): 官方演示了一个极其硬核的案例:模型通过调用公共遥测 API,直接构建了一个展示国际空间站(ISS)轨道的实时航空仪表盘。这不仅是写代码,更是对实时数据流、API 逻辑与 UI 设计的综合推理。


  • 交互式设计与感官原型: 3.1 Pro 能够编写复杂的 3D 模拟程序,例如实时生成支持手势追踪和生成式音效的鸟群模拟。这为 UI/UX 设计师探索感官丰富的新型界面提供了强大的原型支持。


  • 跨领域的“创意推理”: 当被要求为《呼啸山庄》设计现代个人主页时,模型表现出的不是机械的总结,而是对文学意境的逻辑解构,并将其转化为具有现代设计语言的功能性代码。


Gemini 3.1 Pro 还引入了 Thinking Mode 机制,给开发者提供了一个推理预算的开关。

  • HIGH(系统级设计): 模型会分配极高的 Token 预算进行反复推敲,甚至在内部虚拟运行代码以验证逻辑,适合复杂的系统架构设计。
  • MEDIUM(业务自动化): 兼顾延迟与正确率,是 2026 年企业级 Agent 的最优平衡点。
  • LOW/MINIMAL(高吞吐任务): 针对简单的指令遵循或大规模文本清洗,极大压缩响应延迟。

API 定价方面,3.1 Pro 维持了 2.00美元/1M tokens (Input) 的阶梯定价(针对 200K 以内上下文)。对比同赛道中一些动辄 15 美元甚至更高单价的旗舰级模型,3.1 Pro 的成本仅为其 1/7 左右。

目前,Google 已经将 3.1 Pro 部署到了其所有的核心链路中:

  • 开发者: 已在 Gemini API、Google AI Studio 以及 Google Antigravity开启预览。Android Studio 和 Gemini CLI 也同步获得了支持。
  • 企业侧: Vertex AI 和 Gemini Enterprise 用户已可接入。
  • 消费/协作端: NotebookLM 和 Gemini App 已面向 Pro 和 Ultra 用户开放。


参考资料:https://x.com/GoogleDeepMind/status/2024516464892334129