近年来,大语言模型展现出了越来越强的能力,从上下文学习(In-Context Learning, ICL)到复杂推理、代码生成,这些能力不断刷新人们对模型能力边界的认知。

然而,对于这些能力究竟从何而来、又是在训练过程中如何形成的,我们仍然知之甚少。

近年来兴起的机理可解释性(Mechanistic Interpretability)研究,开始尝试揭示模型内部的计算机制。例如,「归纳头」(Induction Heads)被广泛认为是大模型涌现上下文学习能力的关键神经机制。这类注意力头能够识别并复制先前出现的模式,从而实现类似「从示例中学习」的行为。相关研究不仅在多个模型中发现了归纳头的存在,也较为清晰地刻画了它们在推理阶段的工作方式。

然而,这类研究大多停留在事后分析(post hoc analysis)层面。我们能够揭示模型内部的计算机制,并把计算机制逆向拆解成可理解的「电路」。我们能描述一个电路在推理时「算什么」,却回答不了它「怎么来」—— 是哪一部分训练数据、以怎样的方式,在预训练过程中把它塑造了出来?例如,我们已经能够观察归纳头在训练完成后的功能,却仍不清楚它们究竟是如何在预训练过程中形成的。

更进一步地,究竟是哪一部分训练数据塑造了这种能力?是结构严谨的教科书文本,还是蕴含大量重复模式与逻辑结构的代码语料?这些问题至今仍缺乏明确答案。

来自北京大学计算机学院和北京智源人工智能研究院的研究者,正是从这个被长期忽视的「数据溯源」维度切入,提出了机理数据归因(Mechanistic Data Attribution, MDA)框架。它第一次把可解释性的提问,从「模型内部有什么机制」,推进到「这些内部机制是被哪些训练数据因果地塑造出来的」—— 并由此打通了一条「训练数据 → 内部机制 → 模型行为」的因果链条。

而沿着这条链条,他们得到了一个相当反直觉的答案:真正催化归纳头形成的,并不是人类眼中「高质量」的优美文本。那些看似杂乱无章、包含大量重复结构的「垃圾数据」(如 XML 标签、乱码般的 Base64 字符串、LaTeX 源代码),才是塑造归纳头的核心动力。

该工作已被机器学习顶级会议ICML 2026 接收为 Oral & Spotlight(168 / 23,918,录用比 Top 0.7%)。



MDA 框架:可解释单元级别的训练数据归因

要理解 MDA 的新意,先要看清它和传统方法的分界。

经典的训练数据归因(Training Data Attribution, TDA)关注的是「某条数据对模型整体 Loss 的影响」。这就像只用一个人的「整体健康状况」,去倒推他某天吃下的一粒维生素起了什么作用。这种方式粒度太粗、计算昂贵,也无法对应到任何一个具体的内部机制。

MDA 的核心转变在于:不再关注全局模型行为,而是通过影响函数(Influence Functions)精确追踪特定「可解释单元」(如归纳头)的形成源头。



图一:MDA 框架总览。从定位可解释单元,到计算数据影响力,再到因果验证与干预。

具体而言,MDA 是一个三阶段框架:

    定位(Localizing):首先定义可解释单元的监测指标(如针对归纳头的前缀匹配分数),定位那些具备可解释性的关键单元(例如神经元、注意力头等)及其参数子空间; 归因(Computing):利用 EK-FAC(特征值校正的 Kronecker 因子近似曲率)技术,高效估算海量训练数据对特定参数子空间的影响分数。这使得在大规模预训练语料中进行归因成为可能; 干预(Intervening):通过「数据删除」与「数据增强」实验,因果性地验证被筛出的高影响样本是否真的塑造了目标机制。

值得一提的是,MDA 的计算开销随模型规模呈亚线性增长,作者还在 OLMo-2 1B / 7B 上做了定性验证,表明这套归因方法在更大模型上依然能稳定捕捉到一致的结构模式。

归纳头形成的关键数据:重复的结构,比语义更重要

在 Pythia 模型家族(14M–160M)上的系统分析,揭示了归纳头形成背后一系列令人意外、却又自洽的规律:

1.高影响力样本特征

对于归纳头的形成,在按影响力排序的训练数据中,排名前列的往往不是人类认为「高质量」的自然语言文本,而是充斥着重复结构的数据:



表一:代表性高影响力样本示例

更关键的是,这些影响分数呈现出清晰的幂律分布 —— 约 10% 的样本,贡献了高达 50% 的累计影响力。也就是说,归纳头机制的形成确实被一小撮「高杠杆」信号显著驱动。

结论: 归纳头的形成并不依赖于高深的语义逻辑,而是被这些高频重复的结构模体(Structural Motifs) 所「催化」的。

这背后的解释相当自洽:归纳头的本职工作就是「识别并复制重复模式」,那么真正能高效「训练」它的习题,自然就是这些充满重复结构的数据。

2.因果验证:删除会抑制,增强会催化

从训练数据到内部机制的因果验证:

训练数据的影响分数只能代表「相关性」,因果验证才是 MDA 的核心。作者在 Pythia 全家族、两类注意力头(归纳头与前序词元头)上做了双向干预:

从内部机制到模型能力的因果验证:

另外,「归纳头是 ICL 的基础」是领域内长期的核心假设,但此前的证据主要是观测性的。借助 MDA 的精准干预,作者得以从训练动态的视角检验这一因果链:在完全相同的删除 / 增强设置下,归纳头强度与 ICL 得分呈现「同升同降」的紧密耦合。抑制归纳头形成会削弱 ICL,强化则会提升。





图二:因果验证实验(上)归纳头分数(下)ICL 能力分数。红线显示剔除 MDA 识别的数据后,归纳头形成被延后;绿线显示增强这些数据后,归纳头迅速涌现,而 ICL 能力与归纳头变化完全同步。

通过以上两部分的因果干预试验,MDA 打通了一条「训练数据 → 内部机制 → 模型行为」的完整因果链条。

从「事后解释」到「事前干预」:机理数据增强

如果我们已经知道了驱动某个机制形成的数据「配方」,能不能主动合成这类数据,去定向催化模型的特定能力?

论文顺势提出了一种机理数据增强框架(Mechanistic Data Augmentation):

    小模型「探路」:利用较小的模型(如 Pythia-14M)运行 MDA,挖掘出高影响力样本; 大模型总结:让 DeepSeek-V3 等大模型分析这些样本,提取出样本中的共同结构特征; 批量合成数据:让大模型编写自动生成符合这些结构特征的合成数据的可执行代码。



图三:合成数据在不同规模模型上的效果。仅用 14M 模型挖掘出的模式生成的合成数据,就能在 160M 模型上显著加速归纳头的形成。

实验结果有两点令人振奋:

结语

MDA 的意义远不止「一个更精细的数据归因工具」。它标志着可解释性研究的一次角色转变 ——从只会「解释模型里有什么」,走向能够「回答它从哪来、并动手干预它如何形成」。

更进一步,它为一个更大的愿景提供了一块基石:让大模型的训练,从经验主导的「黑盒炼丹」,走向机理驱动的「白盒构建」。沿着「数据 → 机制 → 行为」这条被 MDA 打通的因果链,至少有三个方向可以被打开:

在大模型炼丹术日益精细的今天,MDA 带来的是一把能追溯到数据源头的显微镜 —— 它让我们第一次有机会认真追问:模型的每一项能力,到底是被哪些数据、以怎样的方式塑造出来的。未来,当这个问题能被系统地回答,大模型的「黑盒」,也许就不再那么黑了。