谷歌发布最新推理模型Gemini 2.5系列，Gemini 2.5 Pro实验版几乎完胜OpenAI o3-mini-AI前沿快讯-AI工具导航

谷歌发布最新推理模型Gemini 2.5系列，Gemini 2.5 Pro实验版几乎完胜OpenAI o3-mini

谷歌推出最新Gemini 2.5系列人工智能模型，据谷歌称，这是其目前最智能的模型。首发的Gemini 2.5 Pro Experimental在各种基准测试中都处于领先地位，并在LMArena上以显著优势排名第一。

Gemini 2.5模型是一款“推理模型”，能够在做出反应之前通过自己的想法进行推理，从而提高性能和准确性。谷歌表示，长期以来他们都在探索如何通过强化学习、思维链提示等技术，让人工智能变得更聪明、推理能力更强。现在，借助Gemini 2.5，他们通过将显著增强的基础模型与改进的后训练相结合，实现了新的性能水平。

在推理能力方面，Gemini 2.5 Pro堪称行业标杆。在不借助增加成本的测试技术（如多数投票）的情况下，在GPQA和2025年美国数学邀请赛（AIME）这类测试中处于领先地位。同时，在由数百名专家设计、用于衡量人类知识与推理前沿水平的“人类终极测试”数据集上，该模型在“未使用工具辅助”的情况下，获得了18.8%的最高分数。表明Gemini 2.5 Pro在分析信息、得出逻辑结论以及融入上下文和细微差别等推理能力上，达到了新高度。

编码能力同样是Gemini 2.5的一大亮点。相较于前作Gemini 2.0，Gemini 2.5实现了重大跨越。2.5 Pro在创建Web应用程序、代码代理，以及代码转换和编辑方面表现卓越。在行业标准的“软件工程基准测试”（SWE-Bench Verified）中，通过定制智能体设置，获得了63.8%的高分。它能够根据简单的一行提示，运用强大的推理能力生成可执行代码，进而创建出视频游戏。

Gemini 2.5延续了Gemini系列模型的优势，具备原生多模态和长上下文窗口。当前，2.5 Pro的上下文窗口可达100万个令牌，并且很快将扩展至200万个，性能也优于前代产品。这使得它能够处理来自文本、音频、图像、视频乃至整个代码库等多源的复杂信息。

目前，Gemini 2.5 Pro已在Google AI Studio和面向高级用户的Gemini应用程序中开放试用，开发者和企业可以率先体验其强大功能。在未来几周内，该模型还将登陆Vertex AI平台，并公布相应定价策略。谷歌表示非常重视用户反馈，希望通过持续收集意见，不断优化Gemini 2.5的性能，进一步提升其能力。

参考资料：https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#advanced-coding