DeepSeek推出更新版本V3-0324,R2的基座模型,写代码能力超Claude-3.7!

前沿资讯 1742896043更新

0

DeepSeek宣布推出DeepSeek-V3模型的最新版本DeepSeek-V3-0324。该版本在推理能力、前端开发、中文写作与搜索等多方面展现出强大的性能提升。

官方表示,在推理能力方面,DeepSeek-V3-0324在多个权威基准测试中成绩显著提高。在MMLU-Pro测试中,分数从75.9提升至81.2,GPQA测试中,更是从39.1大幅跃升至58.4,AIME2024测试分数从39.4提升至49.2,LiveCodeBench提升了10个点至49.2。前端网页开发方面,DeepSeek-V3-0324增强了代码的可执行性,同时优化了网页与游戏前端界面,使其更加美观易用,为用户带来更好的交互体验。

对于中文语言能力,该版本有针对性地进行了优化。不仅符合R1写作风格,提升了中长篇写作的质量,还改进了多轮交互式改写功能,优化了翻译与信函写作质量。在中文搜索上,能够提供更详细的报告分析结果,满足用户对信息深度挖掘的需求。函数调用的准确性在新版本中也得到大幅提升,有效解决了之前V3版本存在的问题,进一步增强了模型的实用性。

在使用建议方面,DeepSeek提供了详细的系统提示设置方法,以及Temperature参数的调整规则,方便用户更好地调用API。对于文件上传和网页搜索,也给出了具体的提示模板,确保模型能够准确理解用户需求。此外,DeepSeek-V3-0324模型结构与DeepSeek-V3相同,便于开发者在本地运行,模型支持函数调用、JSON输出等多种功能。不过,目前暂不直接支持Hugging Face的Transformers,该模型基于MIT许可证发布。

有网友针对DeepSeek-V3-0324写代码的能力进行了实测,网友直接抛出结论“超越DeepSeek-R1!甚至超越Claude-3.7!难以想象这还不是一个Thinking模型!”DeepSeek-V3-0324以328.3分在KCORES大模型竞技场排名第三,仅次于claude-3.7-sonnet-thinking和claude-3.5,本次测试claude-3.5比claude-3.7要好一些。

在具体的四项评测中,20小球碰撞测试,与之前的DeepSeek-V3相比,进步显著。此前小球在模拟中挤成一团,而如今物理运动模拟效果良好,仅因小球掉出7边形被扣5分,在该项目中排名第5。mandelbrot-set-meet-libai测试:测试结果显示变化不大,分数相较于DeepSeek-V3降低了2分。主要原因是渲染方向出现错误,从而影响了渲染性能。不过,从完成度来看,相比之前有了明显提升,在该项目中排名第12。火星任务测试:该模型取得了巨大突破。此次星球、图例的渲染均准确无误,发射和返回窗口的计算也有长足进步,在该项目中排名第3。九大行星模拟测试:这堪称史诗级的提升。在参与测试的25个模型中,DeepSeek-V3-0324是唯一绘制出土星环的大模型,绘制土星环的意义,如同画时钟需标注3、6、9、12,画苹果要有果梗一般关键。不过,由于地球轨道周期计算有误,在该项目中排名第16。

另外有网友表示,“在我的内部工作台上测试了新的 DeepSeek V3,它在所有测试的所有指标上都有了巨大的飞跃。它现在是最好的非推理模型,取代了 Sonnet 3.5。”

其他网友实测后表示:“没错,改进十分显著”。

“该版本修复了重复和混乱的问题,这对角色扮演来说是个巨大的改进。V3不够完善,存在许多低级错误,虽然在技术上非常先进,但这些问题使其无法被充分使用。但这次他们修复了这些问题。”

“它感觉像是一个混合模型(R1和V3),在逻辑、编程和数学方面,它能给出很长的推理过程。有时在你问一些普通问题时,它输出的词数也比旧的V3模型多很多。这让人很容易看出它在逻辑和数学方面表现更出色,其他方面还需要做些测试来对比。”

“这是R2所基于的模型。自R1发布以来,我们在推理模型方面取得了惊人的进展。从现有的基础模型来看,仍有极大的改进空间,所以即便没有V4,他们也完全能让R2有显著提升,这次更新显著提升了性能,一般来说,它可以被称作Deepseek v4。”

参考资料:

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324

https://x.com/TheXeophon/status/1904225899957936314

https://x.com/karminski3/status/1904212084306653648

https://www.reddit.com/r/singularity/comments/1jiokxo/deepseek_v3_model_has_completed_a_minor_version/?rdt=57804