
前沿资讯
1746599798更新
0
Google宣布推出Gemini 2.5 Pro (I/O)版本,该版本在编码能力、多模态处理以及应用开发等方面的性能提升明显。
据了解,此次更新着重强化了Gemini 2.5 Pro构建丰富互动网络应用方面的能力。以魔方模拟测试为例,相较于旧版本,新版本在操作体验上有了质的提升。除了延续轻松解决魔方难题的能力外,还新增了一系列丰富的交互功能,用户只需轻轻点击相应按钮,就能对魔方进行自由旋转,全方位观察魔方的每一面,还能通过缩放功能,细致查看魔方的细节。
性能基准测试结果方面,在LM Arena评分中,新版本从旧版的1437分跃升至1448分,在WebDev Arena排行榜上,更是从1272分大幅提升至1419分,进步高达147分。在GPQA Diamond等测试项目中,其成绩与OpenAI的部分模型相当,甚至在某些方面更胜一筹。同时,该模型拥有高达100万令牌的上下文窗口,并且能够处理视频、图像、音频等多种类型的数据,展现出强大的通用性。价格方面,Gemini 2.5 Pro具有极高的性价比。与OpenAI的同类模型相比,其输入成本仅为对方的四分之一,输出成本约为三分之一,仅略高于开源的Deepseek R1模型。
为了全面展示Gemini 2.5 Pro的能力,测试者进行了一系列丰富多样的应用测试。在创建3D浮动岛模拟场景时,模型仅用25秒就生成了一个效果出色的场景,具备动态光照、轻柔动画,还可通过多个滑块调节太阳强度、环境光、云雾速度等参数,展现出强大的场景构建和细节处理能力。
Galton板模拟测试中,首次生成的代码存在顶部漏斗无孔、缺少滑块等问题,但在后续迭代中迅速改进。改进后的模拟具备了完善的功能,如可调节落球间隔、最大球数、箱子数量、钉子行数等参数,能逼真地呈现出概率分布的钟形曲线。
飞行模拟器、蛇游戏、粒子模拟、乐高模拟器、Tamagotchi游戏、复古第一人称射击游戏、塔防游戏等应用的创建过程中,Gemini 2.5 Pro均有出色表现。它能够快速生成相应的代码,并在功能实现和用户体验上达到较高水平,虽然部分应用存在一些小瑕疵,但整体效果令人满意。
不过,在一个“计算缺失方块数量以组成完整立方体”的测试中,Gemini 2.5 Pro模型出现了错误,将立方体尺寸判断错误,导致缺失方块数量计算错误。测试者认为,若有模型能准确解决这一问题,或许将成为真正的最佳模型,该测试也有望成为新的基准测试。
参考资料:https://blog.google/products/gemini/gemini-2-5-pro-updates/
https://www.youtube.com/watch?v=yPC6a83JDeQ