
前沿资讯
1740564566更新
0
据报道,三位熟悉DeepSeek运营的知情人士透露,DeepSeek原计划在5月初发布R2,但目前正在全力加速,将尽早推向市场,具体发布时间尚未确定。其中两位知情人士表示,R2在代码生成和多语言推理能力方面将有显著提升,并可能在AI可解释性、推理稳定性和推理速度等多个关键技术指标上超越当前行业标准。
DeepSeek R1的成功发布,让全球AI行业为之震惊。DeepSeek仅使用了性能相对较低的旧款英伟达A100芯片,其模型的能力却足以与OpenAI、Google DeepMind等美国科技巨头投资数千亿美元打造的模型相抗衡。印度科技服务公司Zensar的首席运营官Vijayasimha Alilughatta(维贾亚西姆哈·阿利卢加塔)表示:“DeepSeek R2的推出可能成为AI产业的一个关键拐点。他们的成功不仅展示了AI领域的新可能性,还可能促使全球企业加快AI研发步伐,打破当前AI领域由少数巨头主导的格局。”
DeepSeek由梁文峰创立,属于“低调实干型”企业家,出生于1985年,来自广东省的一个农村家庭,在浙江大学获得通信工程学位,职业生涯始于上海的一家智能影像公司,并迅速在算法研究领域崭露头角。
据他曾经的上司透露,梁文峰的管理风格与传统科技企业不同,他更倾向于扁平化管理,并鼓励员工自主创新。他在DeepSeek以及其母公司High-Flyer量化基金中,均推行去层级化管理模式,强调高薪吸引顶尖人才,并鼓励年轻研究员承担核心研发任务。据一位曾在DeepSeek任职的前员工透露:“这里不像传统的中国大厂那样有层层汇报的官僚体系,而更像一家技术研究机构,大家共同解决问题,而不是单纯执行上级的命令。”
在人才培养方面,DeepSeek大量招聘清华大学、北京大学以及全球顶级AI研究机构的年轻研究员,并提供行业领先的薪资。据知情人士透露,DeepSeek以及High-Flyer的核心研究员年薪通常可达150万元人民币,远超国内同行的平均水平(80万元人民币)。
DeepSeek能够在AI领域迅速崛起,离不开其母公司High-Flyer量化基金的长期支持。据了解,High-Flyer早在2020年和2021年便投入12亿元人民币建立了两座超级计算AI集群,其中Fire-Flyer II计算集群包含10000颗英伟达A100芯片,为DeepSeek模型的训练奠定了坚实基础。值得注意的是,在2022年美国禁止向我国出口高端AI芯片(如A100和H100)之前,DeepSeek便已完成了芯片的采购和计算基础设施的搭建,使其具备了较强的抗风险能力。
技术架构方面,DeepSeek采用了包括专家混合模型(MoE)和多头潜在注意力(MLA)在内的创新架构。MoE技术使得AI模型可以根据不同任务激活特定的专家模块,而不是全局计算,降低了算力需求;MLA技术则帮助AI在理解复杂语境时提高效率,使得DeepSeek的AI模型在推理能力上达到全球领先水平。
据投资银行Bernstein估算,DeepSeek的AI计算成本仅为OpenAI的1/20到1/40,这直接促使OpenAI、Google Gemini等巨头不得不降低API定价,并调整商业策略,以应对DeepSeek带来的市场冲击。
然而,DeepSeek在国际市场的扩展却面临阻力。韩国、意大利等国家已经以数据安全和隐私为由,将DeepSeek相关产品从其应用商店下架。一些分析人士认为,随着DeepSeek影响力的扩大,美国及其盟友国可能进一步收紧AI相关技术的出口管制。如今,DeepSeek正在用技术创新和成本优势,向全球AI巨头发起挑战,并推动全球AI产业迈向新的发展阶段。
参考资料:https://www.reuters.com/technology/artificial-intelligence/deepseek-rushes-launch-new-ai-model-china-goes-all-2025-02-25/