DeepSeek Engram技术如何重塑大模型赛道

2026年1月12日,DeepSeek联合北京大学在arXiv上发布的《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》论文,以及同步开源的Engram(记忆痕迹)核心模块,堪称大模型技术演进的一次关键转向。这项被视作DeepSeek-V4“技术底牌”的创新,以“查—算分离”的全新机制,跳出了“参数越大、算力越足、模型越强”的传统内卷路径,为大模型突破性能瓶颈提供了更精巧的解决方案,更将引发AI产业链的价值重估与格局洗牌。

一、 传统大模型的“低效痛点”:用计算模拟记忆,纯属“杀鸡用牛刀”

要理解Engram的革命性,首先得看清传统Transformer模型的核心缺陷。

在处理“莎士比亚的全名是什么”“珠穆朗玛峰的高度是多少”这类确定性知识问题时,传统大模型的操作堪称“大材小用”:它不会像人类一样直接调取记忆库里的答案,而是要启动多层神经网络,通过复杂的矩阵运算、注意力机制层层推导,最终“拼凑”出结果。这种模式本质上是用“动态深度计算”去模拟“静态知识检索”,不仅耗时耗力,还造成了巨大的算力资源浪费。

打个比方,这就像让一个数学家放下微积分研究,专门去背诵九九乘法表——不是做不到,而是完全没必要,属于典型的“能力错配”。随着大模型参数规模突破千亿、万亿级别,这种“用计算代记忆”的模式,带来的算力成本、部署门槛也水涨船高,成为制约大模型普惠化的关键瓶颈。

二、 Engram的核心逻辑:“查算分离”,让专业的人做专业的事

Engram模块的诞生,正是为了根治上述痛点。它的核心设计哲学,是将大模型的任务拆分为“静态知识检索”和“动态推理计算”两大分支,实现精准分工。

1. “查”:Engram模块负责的静态记忆检索

Engram本质上是一个可扩展、高效率的现代化查找表,专门存储那些确定性、固定化的知识——比如实体名称、固定短语、历史事实、公式定理等。它的最大优势在于,能够以O(1)的时间复杂度完成检索,相当于“随取随用”。

当模型遇到“Alexander the Great”这个短语时,不需要再通过多层神经网络运算推导,而是直接从Engram的记忆库中提取对应的语义向量;当用户询问“中国的首都是哪里”时,Engram可以瞬间给出答案,无需模型“绞尽脑汁”计算。

这就像给大模型配备了一个“超级记忆U盘”,把那些不需要思考的“死知识”全部存进去,随用随取。

2. “算”:Transformer主干负责的动态组合推理

在Engram接管了“死记硬背”的工作后,Transformer主干网络终于可以“轻装上阵”,专注于自己最擅长的事——复杂逻辑推理、创造性内容生成、上下文关联分析等需要“动脑筋”的任务。

比如,当用户要求“基于莎士比亚的生平,写一篇关于人性的散文”时,Engram负责快速检索莎士比亚的生平事迹、代表作品等基础信息,而Transformer主干则负责整合这些信息,进行逻辑梳理、语言组织和创意表达;当用户提出“设计一个基于区块链的供应链管理方案”时,Engram提供区块链相关的基础概念和技术术语,Transformer主干则负责方案的架构设计、流程规划和可行性分析。

这种分工,就像给程序员配备了一个智能IDE:IDE自动补全语法、调用函数,程序员则专注于核心算法的设计——效率提升是显而易见的。

3. 理论支撑:U型缩放定律,优化资源配比

论文中还提出了一个关键发现:神经计算(MoE)与静态记忆(Engram)之间存在一种U型缩放定律。这一定律揭示了两者之间的资源优化配比关系——不是一味增加某一方的资源投入,而是找到两者的平衡点,才能实现性能最大化。

这就意味着,未来大模型的优化方向,不再是盲目堆参数、堆算力,而是通过调整“检索”与“计算”的资源占比,实现效率与性能的最优解。这为大模型的架构设计提供了明确的理论指导,堪称是一次“方法论层面的革新”。

三、 实测性能:不止是知识检索,推理能力也意外飞跃

Engram的价值,不是停留在理论层面的“纸上谈兵”,而是在实测中展现出了性能与效率的双重突破。在27B参数规模的对比实验中,Engram模型在“等参数、等算力”的条件下,全面超越了传统的MoE模型,甚至带来了一些“意外之喜”。