大模型可解释性-颠覆认知：大语言模型在预训练中并非“稳定变聪明”

这项研究打破了我们关于模型学习是线性成熟的美好想象。它揭示的“模式跳跃”现象，要求我们以更动态、更复杂的视角来审视预训练过程。但同时，它也带来了新的希望和工具。它表明，模型内部确实存在强烈的、趋向于“智能泛化”的倾向，只是这种倾向在与“捷径”的竞争中起伏不定。理解并监控这种动态，为我们提供了优化模型、引导其向更鲁棒、更可泛化方向发展的全新“杠杆”。预训练的黑箱，似乎又打开了一扇新的窗户。而我们手中

XD742971636

367人浏览 · 2026-05-19 10:37:19

XD742971636 · 2026-05-19 10:37:19 发布

颠覆认知：大语言模型在预训练中并非“稳定变聪明”，而是在“鹦鹉”与“智能”间反复横跳

新研究发现，我们关于模型学习过程的根本假设可能错了

近日，一篇关于大语言模型（LM）预训练“泛化动态”的研究在社区内引发了广泛讨论。该研究通过一套精巧的评估工具，揭示了一个颠覆性的现象：在预训练过程中，模型并非如我们通常所设想的那样，从机械的“模式匹配者”（鹦鹉）平稳、线性地发展为具备深层理解的“通用智能”。

相反，模型会频繁且突然地在“鹦鹉模式”与“智能模式”之间跳跃，这种被称为 “模式跳跃” 的行为贯穿了整个预训练过程，甚至远超理论最优训练量后依然存在。

核心发现：令人惊讶的“模式跳跃”

传统的认知是，随着模型“阅读”的文本越来越多，其能力会稳定增长，逐步学会抓住可迁移的深层规律。然而，UC Berkeley 和 Stanford 的研究者通过追踪 OLMo3 和 Apertus 等模型在数百个预训练检查点上的行为，描绘了一幅截然不同的图景。

想象一下，一个模型在处理“1+1=?”这类问题时，可能在某个检查点能正确进行数学运算（智能模式），但在下一个检查点却会简单地重复上下文中的“+1”模式（鹦鹉模式），准确率可以从81%骤降至0%，随后又突然恢复。

这种跳跃并非偶然，而是普遍存在。研究者通过一套旨在“行为指纹”识别“鹦鹉”与“智能”的评估套件，在多种任务中都观察到了类似振荡：

!https://img.techrk1688.com/blog/2024/08/20/artboard.png
图：在“连续答案模式”任务中，模型的泛化行为在预训练过程中剧烈振荡，而非平滑提升。

如何识别“鹦鹉”与“智能”？六个“玩具”评测

研究的关键在于设计了一套能“戳穿”模型表面行为，探测其底层机制的评测任务。它们都足够简单（“玩具”级别），成本低廉，却能有效区分模型是在做模式匹配还是真正理解。

翻转答案：将模型已知任务（如情感分类）的标签反转，看它是遵循记忆中的旧模式，还是能根据上下文推断出新规则。
重复/连续模式：在上下文中给出遵循固定模式的答案（如所有答案都是83），测试时打破该模式，看模型是“无脑”重复模式，还是执行真实计算。
“听起来真”与“事实真”：测试模型是依据“听起来像真的”（如“北极星是夜空中最亮的星”——听起来对，实际是错的），还是依据事实本身。
直觉与推理：使用“认知反射测试”变体，例如“一个球拍和一颗球共1.10美元，球拍比球贵1美元，球多少钱？” 看模型是给出直觉答案（0.1美元），还是能慢思考算出正确答案（0.05美元）。
连贯人设：给模型输入关于某个历史人物的大量零散事实问答，看它能否将这些事实连接成连贯的“人设”，并回答需要综合推理的问题（如“你的医生是谁？”）。
微调中的泛化：在“上下文外推理”和“涌现性错位”等更复杂的泛化任务中，也观察到了模式跳跃。

为什么？是“容量争夺战”，而非普通训练波动

一个最直接的猜想是：这不过是训练损失函数正常振荡的体现。但论文通过严谨的分析排除了这种可能：

不是评估噪声：在常规评测集上，模型表现是平滑上升的，振荡只出现在这些“泛化压力测试”中。
不是标准优化动态：对一个检查点哪怕只做一个梯度步，其泛化行为也几乎不变，说明这种行为是“局部稳定”的。合并多个检查点也只能缓解，无法消除跳跃。

研究者提出了一个更根本的解释：这是有限模型容量内部的“电路竞争”。在预训练早期，模型会快速学会许多浅层的、模式匹配的“鹦鹉电路”。随着训练继续，更高效、更具泛化能力的“智能电路”开始形成。然而，在有限的模型容量内，这两种电路是竞争关系。每个训练时间窗口的数据，就像一个“战场”，决定了哪种电路能暂时胜出，从而导致了泛化行为在宏观上的振荡。

这不是纯理论研究，它有实际应用价值

这项研究的意义远不止于修正我们的认知，它提供了一套全新的工具和视角：

选择更好的预训练检查点：利用这套评测，可以在预训练中期筛选出“智能模式”占优的检查点。实验表明，这样的检查点在后续的数学推理微调和对齐微调中，表现优于最终产出的模型检查点。这意味着，最好的模型可能藏在训练中途，而非终点。
控制预训练数据，引导泛化方向：既然知道不同数据窗口会影响模式竞争，就可以主动筛选数据来“引导”模型的泛化动态。初步实验表明，这能有效地将模型“稳定”在期望的模式上。
检验“泛化预测”理论：许多理论认为“更简单的解泛化得更好”。用这套评测去检验现有的泛化预测指标（如基于激活/梯度的复杂度度量），发现情况复杂得多。可泛化的“智能电路”有时简单，有时复杂，“简单即泛化”的单一信念可能站不住脚。

结语：拥抱复杂性，寻求新杠杆

这项研究打破了我们关于模型学习是线性成熟的美好想象。它揭示的“模式跳跃”现象，要求我们以更动态、更复杂的视角来审视预训练过程。

但同时，它也带来了新的希望和工具。它表明，模型内部确实存在强烈的、趋向于“智能泛化”的倾向，只是这种倾向在与“捷径”的竞争中起伏不定。理解并监控这种动态，为我们提供了优化模型、引导其向更鲁棒、更可泛化方向发展的全新“杠杆”。

预训练的黑箱，似乎又打开了一扇新的窗户。而我们手中，多了一副观察其内部风云变幻的“眼镜”和一套可能进行干预的“工具”。这无疑会激发对模型架构、训练策略和评估方法的全新思考，推动我们离真正的、稳定的通用智能更近一步。

论文：https://jiaxin-wen.github.io/blog/generalization-dynamics

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

从Anthropic官方文档看Claude的安全机制：隔离、模型与外部内容的三层防御体系

十二个月前，如果有人提议让Claude拥有足以搞垮Anthropic内部服务的权限，我们一定会断然拒绝。而今天，这种访问级别已经成为常态，Anthropic内部的开发者们正因为这种部署而大幅提升了生产力。这是我读完Anthropic官方工程博客《How we contain Claude across products》（2026年5月25日发布）后的第一感受。当AI Agent的能力越强大，它的