谷歌发布最新推理模型Gemini 2.5系列,Gemini 2.5 Pro实验版几乎完胜OpenAI o3-mini

前沿资讯 1742967893更新

0

谷歌推出最新Gemini 2.5系列人工智能模型,据谷歌称,这是其目前最智能的模型。首发的Gemini 2.5 Pro Experimental在各种基准测试中都处于领先地位,并在LMArena上以显著优势排名第一。

Gemini 2.5模型是一款“推理模型”,能够在做出反应之前通过自己的想法进行推理,从而提高性能和准确性。谷歌表示,长期以来他们都在探索如何通过强化学习、思维链提示等技术,让人工智能变得更聪明、推理能力更强。现在,借助Gemini 2.5,他们通过将显著增强的基础模型与改进的后训练相结合,实现了新的性能水平。

在推理能力方面,Gemini 2.5 Pro堪称行业标杆。在不借助增加成本的测试技术(如多数投票)的情况下,在GPQA和2025年美国数学邀请赛(AIME)这类测试中处于领先地位。同时,在由数百名专家设计、用于衡量人类知识与推理前沿水平的“人类终极测试”数据集上,该模型在“未使用工具辅助”的情况下,获得了18.8%的最高分数。表明Gemini 2.5 Pro在分析信息、得出逻辑结论以及融入上下文和细微差别等推理能力上,达到了新高度。

编码能力同样是Gemini 2.5的一大亮点。相较于前作Gemini 2.0,Gemini 2.5实现了重大跨越。2.5 Pro在创建Web应用程序、代码代理,以及代码转换和编辑方面表现卓越。在行业标准的“软件工程基准测试”(SWE-Bench Verified)中,通过定制智能体设置,获得了63.8%的高分。它能够根据简单的一行提示,运用强大的推理能力生成可执行代码,进而创建出视频游戏。

Gemini 2.5延续了Gemini系列模型的优势,具备原生多模态和长上下文窗口。当前,2.5 Pro的上下文窗口可达100万个令牌,并且很快将扩展至200万个,性能也优于前代产品。这使得它能够处理来自文本、音频、图像、视频乃至整个代码库等多源的复杂信息。

目前,Gemini 2.5 Pro已在Google AI Studio和面向高级用户的Gemini应用程序中开放试用,开发者和企业可以率先体验其强大功能。在未来几周内,该模型还将登陆Vertex AI平台,并公布相应定价策略。谷歌表示非常重视用户反馈,希望通过持续收集意见,不断优化Gemini 2.5的性能,进一步提升其能力。

参考资料:https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#advanced-coding