百度开源发布多模态推理模型:ERNIE 4.5-VL-28B-A3B-Thinking

前沿资讯 1762934755更新

0

导读: 百度宣布推出全新的开源多模态推理模型ERNIE 4.5-VL-28B-A3B-Thinking。这款模型以轻量级架构实现了强劲的视觉语言理解能力,不仅在文档与图表理解测试中超越Gemini 2.5 Pro和GPT-5 High,还首次引入“以图思考(Thinking with Images)”功能,支持图像放大、细节识别与视觉推理。


ERNIE 4.5-VL-28B-A3B-Thinking是一款专为视觉与语言融合推理打造的轻量级模型,采用仅3B激活参数的架构,在多个权威测试中取得突破性成绩。

据悉,本次升级的核心,是对视觉与语言模态的语义对齐进行了深度优化。

百度在模型中引入了大规模的视觉语言推理训练数据,使其在理解复杂图像、图表和文本关系时表现出更自然、更精准的语义一致性。

另外,“以图思考(Thinking with Images)”的新功能可以让模型像人类一样,通过放大或缩小图像,去捕捉细节、理解上下文,并借助图像搜索工具解决“长尾知识”问题,显著提升视觉推理深度。

在应用层面,ERNIE 4.5-VL-28B-A3B-Thinking展现了多项强大能力:

  • 视觉推理:能理解复杂图表、进行多步逻辑分析。
  • STEM问题求解:具备通过图片识别并解题的理科推理能力。
  • 视觉定位(Visual Grounding):可精准识别图像中的目标区域并生成结构化结果。
  • 工具调用:支持自主使用图像搜索等外部工具,自动检索未知信息。
  • 视频理解:能识别视频中的时间片段、场景变化和字幕内容。

此外,百度宣布该模型全面开源,采用Apache License 2.0许可协议,可商用使用

目前,百度已在Hugging Face与FastDeploy平台上提供快速部署方案,并开放了ERNIEKit训练工具包,支持LoRA微调与DPO对齐训练。


参考资料:https://yiyan.baidu.com/blog/posts/ernie-4.5-vl-28b-a3b-thinking/