通俗解读：DeepSeek的最新Engram架构-AI前沿快讯-AI工具导航

通俗解读：DeepSeek的最新Engram架构

【导读】有没有遇到过这种情况：明明是常识性问题，大模型却要思考半天？这个问题在于，它每次都得"现场推理"。DeepSeek联合北京大学推出了Engram，就像给大模型装了个外接硬盘，把常用的"死知识"存进去，需要时直接查，不用重新算。实验证明：同等配置下，新方法在代码、数学、长文本等任务上全面超越传统架构，而且1000亿参数的"知识库"放在电脑内存里居然几乎不卡顿，推理开销仅增加不到3%。

想象一下，如果每次有人问你"中国的首都是哪里"，你都要从头推理一遍，先想哪个城市人口最多，再查历史资料，最后再得出结论，是不是很麻烦？

现在的大语言模型，就处于这种尴尬境地。虽然它们本领高强，但遇到像"苹果公司CEO是谁"这种确定答案时，也得调动多层神经网络来来回回算一遍。这就好比一个大学生被问到"1+1等于几"，居然要用微积分来证明，简直是大材小用，效率极低。

Engram团队想了个绝妙的主意：既然是固定不变的知识，为什么不直接存起来要用的时候查呢？

他们借鉴了经典的"N-gram"技术（说白了就是"查字典"）。比如看到"清华"两个字，后面大概率跟着"大学"；看到"Chat"，后面大概率跟着"GPT"。这些搭配都是约定俗成的，与其让AI每次重新推理，不如建一个超大号"短语词典"存起来。

具体怎么操作呢？Engram会给大模型加一个"记忆模块"，分成三步走：

第一步：抓取关键片段。当模型读到一句话时，它会提取最后几个词（比如"北京烤鸭"这个3词片段），作为"查询关键词"。

第二步：字典里找答案。通过特殊算法在超大的"记忆库"里快速定位匹配的预存知识。整个过程就像查字典一样，锁定目标条目就行，完全不用推理。

第三步：智能融合。找到的知识不能生搬硬套，得跟当前上下文"对一下眼神"。如果检索结果和前后文搭调，就用上，如果不搭调，就忽略。

最妙的是，这个"记忆库"可以做得非常大，论文里放到1000亿参数，完全放在主机内存里，推理时几乎不增加额外计算量，吞吐量损失仅2.8% 。

效果有多好？研究团队训练了四个配置相同的模型做对比：

模型	MMLU（知识问答）	HumanEval（写代码）	MATH（做数学题）
传统MoE架构	60.6%	60.1%	28.3%
加了Engram	64.0%	63.6%	30.7%
提升	+3.4%	+3.5%	+2.4%

长文本"大海捞针"测试中，从茫茫文章里精准找到目标信息的成功率从84.2%提升到97.0%，相当于从"偶尔能找对"变成了几乎从不失手，变量追踪任务也从77.0%提升到89.0%。

为什么这个技术很重要？

首先，它让大模型变得更专一。静态知识存进记忆库后，模型的"思考能力"就被解放出来，专门处理真正需要推理的问题。

其次，它特别"省"。把记忆库放在内存里而不是显卡里，成本大幅下降，但速度几乎不受影响，就像把图书馆从郊区搬到市区，借书还书一样快，还不用付高价租金。

最后，它为未来指了条明路：如果给AI配的"硬盘"足够大，它是不是就能记住人类所有的知识？

论文原文：https://github.com/deepseek-ai/Engram

参考资料：https://mp.weixin.qq.com/s/QrzSAIGBLYk7HuUcQ08Vfg