前沿资讯
1767420607更新
0
【导读】一篇关于mHC的新论文,一句“已完成内部大规模训练实验”的表述,被海外社区解读为关键信号。不少人开始推测,DeepSeek V4可能已经完成预训练,正进入最后阶段,发布时间或比想象中更近。
这两天,DeepSeek的一篇新论文在技术圈内引发了不小的讨论。论文介绍了一种名为mHC的新网络结构,属于对底层架构的深度调整,而不是常见的小修小补。
原本这只是一篇偏技术向的研究,但真正点燃讨论的,是论文中的一句话:“这一结论得到了我们内部大规模训练实验的进一步验证。”

正是这句话,让不少海外网友开始“顺藤摸瓜”。在他们看来,这种表述往往意味着一个关键信息:相关的大模型已经完成了完整训练,而不是停留在理论或小规模实验阶段。
顺着这个逻辑推下去,讨论很快指向了一个名字:DeepSeek V4。
结合时间点来看,推测并非空穴来风。mHC并不是一个孤立的想法,而是建立在DeepSeek此前在MoE(混合专家)等方向长期积累之上的一次底层重构。如果大规模训练已经完成,那么当前阶段更可能是在做后训练、调优和安全测试。
也正因为如此,有声音认为,DeepSeek V4的发布时间可能会落在1月底,甚至春节前后。
当然,这一切目前都还停留在社区推测层面,DeepSeek官方并未作出任何确认。但从以往节奏来看,DeepSeek每次出手,往往都不是参数或规模上的简单升级,而是直接在基础架构层面做出改变。
这也是不少从业者真正关注V4的原因。在当前环境下,如果只是依赖外部数据或既有路线,很难实现实质性跨越,而DeepSeek显然更倾向于从底层设计入手,寻找新的突破口。
至于V4是否真的已经“在路上”,很快就会有答案了。至少可以确定的是,这篇论文已经成功吊起了整个行业的胃口。
参考资料:https://x.com/AI_Whisper_X/status/2007264206689878077
豫公网安备41010702003375号