linux.do

看了DS的Engram，和大众想的记忆系统偏差很大

github.com

GitHub - deepseek-ai/Engram: Conditional Memory via Scalable Lookup: A New Axis...

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

原工作镇楼，我讲讲我自己的理解。

这个工作的初步想法是作者观察到大模型的transformer层的很多算力被浪费在固定知识的匹配上[1]，浪费了这个结构推理的潜力。（参阅文章的引言）

因此作者在模型的结构中新增一个模块，在attension块(可以理解为transformer层最精髓核心的计算块)前加入一个engram块，这个engram块的计算其实说起来很简单，就是对于当前处理的token，找到这个token前的token序列，用这个序列来查一个表[2]，查出的结果融合回当前计算结果供后续模块参考。（如果这段看不懂可以先看后面的例子再回来看）

举一个简单的例子，假设模型正在输出“中国|首都|…”（…为正在处理的即将生成的下一个token，|表示token的分隔）。
换做以前的模型结构，模型要计算出下一个token是“北京”，需要attension去注意前面的“中国”“首都”这两个token，还需要moe层存储中国首都是北京的知识；
有了engram之后，这个层取前token序列“中国|首都”[3]，查表得到一个和“北京”概念相关的结果，将这个结果融合进当前计算结果交给attension和moe继续计算，也就省下了这两个模块存储和计算这个知识的资源，让其专注于组合推理的工作，提升智力。
文章的后续部分就是将这种新结构的模型和原结构模型性能进行对比，并且摸索了一下同时应用moe和engram的优化时有没有一个最佳配比(两边模块分配多少参数量合适)，就不多说了。

所以直观上看这个工作主要是把知识检索这部分的工作从attension+moe块卸载(offload)给了一个新增的特化模块engram进行处理，所以文章里把这个模块叫做条件记忆(conditional memory)。

对于大众来说，期待的记忆模块可能是希望能以此记忆用户的个性化信息，或者当上下文超限时可以记住之前对话的摘要。engram这个工作能实现这个需求吗？整体来看，新的模型结构主要是多出了engram模块的参数，某种程度上或许可以通过微调这个参数来尽量实现这个需求。
比如试想一下模型需要记住用户的名字是丁一，那可以考虑将engram表的kv调整一下{“你|叫”:“丁一”, “你的｜名字是”:“丁一”}，想想也是相当别扭了。
本质来看我觉得这个模块是设计用来存储固定token搭配的相关知识的，硬将其用作个性化记忆或者超上下文记忆这种差异较大的场景效果不好是可以想象的。所以我觉得比起记忆系统，有说engram是给模型内置一个微型rag这样的比喻可能会更准确一点。

[1] 作者观察的依据是什么？引用了一个工作Ghandeharioun et al., 2024; Jin et al., 2025，并说“see Table 3”，看了一下主要就是分析上面例子里这种场景，每一层transformer到底在计算什么，会发现类似这种固定搭配检索的情况，模型确实花费了大量精力去匹配对应的token。分析的方式是 LogitLens + CKA，简单来说就是将中间计算结果直接生成出token，看一下这个token表达的意思。

[2]新增了一个查找表，这个查找表对于token固定搭配的映射值是怎么来的？答案是训出来的，查找表是训练参数的一部分，初始状态映射值是随机生成的，随着训练的过程，模型会自己把有用的信息记录在表里。

[3]模型怎么知道取前几个token？假设整个句子是“高堡奇人|世界观|的|中国|首都”，模型只取“中国|首都”去查询不就炸了？答案是没有思考需要取前几个token这个流程，engram是把前2~n个token的n个序列全部取出来了(也就是取了“中国|首都”，“的|中国|首都”，“世界观|的|中国|首都”，“高堡奇人|世界观|的|中国|首都”)，然后各自查表得到结果融合在一起再和中间计算状态融合，n是超参数，就是模型设计时需要取舍的值。在文章里DS后续训练时，n他们取了3。这里的融合也没什么魔法，通常就是矩阵相加，最多再来个训出来或者算出来的蒙版矩阵决定保留哪些信息。

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: umbrella)

Invalid media:
image
image

11 views04:15