Google发布Gemini 3.1 Pro：ARC-AGI成绩翻倍，深度推理进入“可量化”时代-AI前沿快讯-AI工具导航

Google发布Gemini 3.1 Pro：ARC-AGI成绩翻倍，深度推理进入“可量化”时代

前沿资讯 1771579851更新

Gemini 团队正式发布了 Gemini 3.1 Pro。

相比于上周发布的专门针对科学研究的 Deep Think，3.1 Pro 更像是将那种“深思考”的能力平权化，转化为日常开发者、架构师和产品管理者触手可及的通用核心智能。

在本次更新中，最具指标意义的数据是：Gemini 3.1 Pro 在 ARC-AGI-2（评估模型解决全新逻辑模式能力的基准测试）中取得了 77.1% 的验证分数。

为什么这个数据重要？ 因为 ARC-AGI 不同于通过背诵 GitHub 仓库就能高分的测试，它模拟的是软件开发中真实的“突发状况”。

3.1 Pro 正在从一种“概率预测机器”转向一种“核心推理引擎”。对于需要处理复杂私有协议、非标业务逻辑的团队来说，这种逻辑稳定性的翻倍，直接决定了 Agent 能否在生产环境中落地。

Google 在新闻稿中通过四个维度展示了 3.1 Pro 如何将这种“进化的推理能力”转化为生产力：

代码级动画（Code-based Animation）：模型现在可以直接通过自然语言生成可交互、网站原生的 SVG 动画。由于是基于代码而非像素，这些动效保持了极小的体积和无限的缩放能力。

复杂系统合成（Complex System Synthesis）：官方演示了一个极其硬核的案例：模型通过调用公共遥测 API，直接构建了一个展示国际空间站（ISS）轨道的实时航空仪表盘。这不仅是写代码，更是对实时数据流、API 逻辑与 UI 设计的综合推理。

交互式设计与感官原型： 3.1 Pro 能够编写复杂的 3D 模拟程序，例如实时生成支持手势追踪和生成式音效的鸟群模拟。这为 UI/UX 设计师探索感官丰富的新型界面提供了强大的原型支持。

跨领域的“创意推理”：当被要求为《呼啸山庄》设计现代个人主页时，模型表现出的不是机械的总结，而是对文学意境的逻辑解构，并将其转化为具有现代设计语言的功能性代码。

Gemini 3.1 Pro 还引入了 Thinking Mode 机制，给开发者提供了一个推理预算的开关。

API 定价方面，3.1 Pro 维持了 2.00美元/1M tokens (Input) 的阶梯定价（针对 200K 以内上下文）。对比同赛道中一些动辄 15 美元甚至更高单价的旗舰级模型，3.1 Pro 的成本仅为其 1/7 左右。

目前，Google 已经将 3.1 Pro 部署到了其所有的核心链路中：

开发者：已在 Gemini API、Google AI Studio 以及 Google Antigravity开启预览。Android Studio 和 Gemini CLI 也同步获得了支持。
企业侧： Vertex AI 和 Gemini Enterprise 用户已可接入。
消费/协作端： NotebookLM 和 Gemini App 已面向 Pro 和 Ultra 用户开放。

参考资料：https://x.com/GoogleDeepMind/status/2024516464892334129