通俗解读:DeepSeek的最新Engram架构

前沿资讯 1768298184更新

0

【导读】有没有遇到过这种情况:明明是常识性问题,大模型却要思考半天?这个问题在于,它每次都得"现场推理"。DeepSeek联合北京大学推出了Engram,就像给大模型装了个外接硬盘,把常用的"死知识"存进去,需要时直接查,不用重新算。实验证明:同等配置下,新方法在代码、数学、长文本等任务上全面超越传统架构,而且1000亿参数的"知识库"放在电脑内存里居然几乎不卡顿,推理开销仅增加不到3%。


想象一下,如果每次有人问你"中国的首都是哪里",你都要从头推理一遍,先想哪个城市人口最多,再查历史资料,最后再得出结论,是不是很麻烦?

现在的大语言模型,就处于这种尴尬境地。虽然它们本领高强,但遇到像"苹果公司CEO是谁"这种确定答案时,也得调动多层神经网络来来回回算一遍。这就好比一个大学生被问到"1+1等于几",居然要用微积分来证明,简直是大材小用,效率极低。

Engram团队想了个绝妙的主意:既然是固定不变的知识,为什么不直接存起来要用的时候查呢?

他们借鉴了经典的"N-gram"技术(说白了就是"查字典")。比如看到"清华"两个字,后面大概率跟着"大学";看到"Chat",后面大概率跟着"GPT"。这些搭配都是约定俗成的,与其让AI每次重新推理,不如建一个超大号"短语词典"存起来

具体怎么操作呢?Engram会给大模型加一个"记忆模块",分成三步走:

第一步:抓取关键片段。当模型读到一句话时,它会提取最后几个词(比如"北京烤鸭"这个3词片段),作为"查询关键词"。

第二步:字典里找答案。通过特殊算法在超大的"记忆库"里快速定位匹配的预存知识。整个过程就像查字典一样,锁定目标条目就行,完全不用推理

第三步:智能融合。找到的知识不能生搬硬套,得跟当前上下文"对一下眼神"。如果检索结果和前后文搭调,就用上,如果不搭调,就忽略。

最妙的是,这个"记忆库"可以做得非常大,论文里放到1000亿参数,完全放在主机内存里,推理时几乎不增加额外计算量,吞吐量损失仅2.8%

效果有多好?研究团队训练了四个配置相同的模型做对比:

模型MMLU(知识问答)HumanEval(写代码)MATH(做数学题)
传统MoE架构60.6%60.1%28.3%
加了Engram64.0%63.6%30.7%
提升+3.4%+3.5%+2.4%

长文本"大海捞针"测试中,从茫茫文章里精准找到目标信息的成功率从84.2%提升到97.0%,相当于从"偶尔能找对"变成了几乎从不失手,变量追踪任务也从77.0%提升到89.0%。

为什么这个技术很重要?

首先,它让大模型变得更专一。静态知识存进记忆库后,模型的"思考能力"就被解放出来,专门处理真正需要推理的问题。

其次,它特别"省"。把记忆库放在内存里而不是显卡里,成本大幅下降,但速度几乎不受影响,就像把图书馆从郊区搬到市区,借书还书一样快,还不用付高价租金

最后,它为未来指了条明路:如果给AI配的"硬盘"足够大,它是不是就能记住人类所有的知识?

论文原文:https://github.com/deepseek-ai/Engram


参考资料:https://mp.weixin.qq.com/s/QrzSAIGBLYk7HuUcQ08Vfg