颠覆认知:大语言模型在预训练中并非“稳定变聪明”,而是在“鹦鹉”与“智能”间反复横跳

新研究发现,我们关于模型学习过程的根本假设可能错了

近日,一篇关于大语言模型(LM)预训练“泛化动态”的研究在社区内引发了广泛讨论。该研究通过一套精巧的评估工具,揭示了一个颠覆性的现象:在预训练过程中,模型并非如我们通常所设想的那样,从机械的“模式匹配者”(鹦鹉)平稳、线性地发展为具备深层理解的“通用智能”

相反,模型会频繁且突然地在“鹦鹉模式”与“智能模式”之间跳跃,这种被称为 “模式跳跃” 的行为贯穿了整个预训练过程,甚至远超理论最优训练量后依然存在。

核心发现:令人惊讶的“模式跳跃”

传统的认知是,随着模型“阅读”的文本越来越多,其能力会稳定增长,逐步学会抓住可迁移的深层规律。然而,UC Berkeley 和 Stanford 的研究者通过追踪 OLMo3 和 Apertus 等模型在数百个预训练检查点上的行为,描绘了一幅截然不同的图景。

想象一下,一个模型在处理“1+1=?”这类问题时,可能在某个检查点能正确进行数学运算(智能模式),但在下一个检查点却会简单地重复上下文中的“+1”模式(鹦鹉模式),准确率可以从81%骤降至0%,随后又突然恢复。

这种跳跃并非偶然,而是普遍存在。研究者通过一套旨在“行为指纹”识别“鹦鹉”与“智能”的评估套件,在多种任务中都观察到了类似振荡:

!https://img.techrk1688.com/blog/2024/08/20/artboard.png
图:在“连续答案模式”任务中,模型的泛化行为在预训练过程中剧烈振荡,而非平滑提升。

如何识别“鹦鹉”与“智能”?六个“玩具”评测

研究的关键在于设计了一套能“戳穿”模型表面行为,探测其底层机制的评测任务。它们都足够简单(“玩具”级别),成本低廉,却能有效区分模型是在做模式匹配还是真正理解。

  1. 翻转答案:将模型已知任务(如情感分类)的标签反转,看它是遵循记忆中的旧模式,还是能根据上下文推断出新规则。
  2. 重复/连续模式:在上下文中给出遵循固定模式的答案(如所有答案都是83),测试时打破该模式,看模型是“无脑”重复模式,还是执行真实计算。
  3. “听起来真”与“事实真”:测试模型是依据“听起来像真的”(如“北极星是夜空中最亮的星”——听起来对,实际是错的),还是依据事实本身。
  4. 直觉与推理:使用“认知反射测试”变体,例如“一个球拍和一颗球共1.10美元,球拍比球贵1美元,球多少钱?” 看模型是给出直觉答案(0.1美元),还是能慢思考算出正确答案(0.05美元)。
  5. 连贯人设:给模型输入关于某个历史人物的大量零散事实问答,看它能否将这些事实连接成连贯的“人设”,并回答需要综合推理的问题(如“你的医生是谁?”)。
  6. 微调中的泛化:在“上下文外推理”和“涌现性错位”等更复杂的泛化任务中,也观察到了模式跳跃。

为什么?是“容量争夺战”,而非普通训练波动

一个最直接的猜想是:这不过是训练损失函数正常振荡的体现。但论文通过严谨的分析排除了这种可能:

  • 不是评估噪声:在常规评测集上,模型表现是平滑上升的,振荡只出现在这些“泛化压力测试”中。
  • 不是标准优化动态:对一个检查点哪怕只做一个梯度步,其泛化行为也几乎不变,说明这种行为是“局部稳定”的。合并多个检查点也只能缓解,无法消除跳跃。

研究者提出了一个更根本的解释:这是有限模型容量内部的“电路竞争”。在预训练早期,模型会快速学会许多浅层的、模式匹配的“鹦鹉电路”。随着训练继续,更高效、更具泛化能力的“智能电路”开始形成。然而,在有限的模型容量内,这两种电路是竞争关系。每个训练时间窗口的数据,就像一个“战场”,决定了哪种电路能暂时胜出,从而导致了泛化行为在宏观上的振荡。

这不是纯理论研究,它有实际应用价值

这项研究的意义远不止于修正我们的认知,它提供了一套全新的工具和视角:

  1. 选择更好的预训练检查点:利用这套评测,可以在预训练中期筛选出“智能模式”占优的检查点。实验表明,这样的检查点在后续的数学推理微调和对齐微调中,表现优于最终产出的模型检查点。这意味着,最好的模型可能藏在训练中途,而非终点

  2. 控制预训练数据,引导泛化方向:既然知道不同数据窗口会影响模式竞争,就可以主动筛选数据来“引导”模型的泛化动态。初步实验表明,这能有效地将模型“稳定”在期望的模式上。

  3. 检验“泛化预测”理论:许多理论认为“更简单的解泛化得更好”。用这套评测去检验现有的泛化预测指标(如基于激活/梯度的复杂度度量),发现情况复杂得多。可泛化的“智能电路”有时简单,有时复杂,“简单即泛化”的单一信念可能站不住脚

结语:拥抱复杂性,寻求新杠杆

这项研究打破了我们关于模型学习是线性成熟的美好想象。它揭示的“模式跳跃”现象,要求我们以更动态、更复杂的视角来审视预训练过程。

但同时,它也带来了新的希望和工具。它表明,模型内部确实存在强烈的、趋向于“智能泛化”的倾向,只是这种倾向在与“捷径”的竞争中起伏不定。理解并监控这种动态,为我们提供了优化模型、引导其向更鲁棒、更可泛化方向发展的全新“杠杆”。

预训练的黑箱,似乎又打开了一扇新的窗户。而我们手中,多了一副观察其内部风云变幻的“眼镜”和一套可能进行干预的“工具”。这无疑会激发对模型架构、训练策略和评估方法的全新思考,推动我们离真正的、稳定的通用智能更近一步。

论文:https://jiaxin-wen.github.io/blog/generalization-dynamics

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐