这项由耶路撒冷希伯来大学研究团队完成的研究,以预印本形式发布于2026年6月,论文编号为arXiv:2606.22473,有兴趣深入钻研的读者可通过这个编号查阅完整原文。

你有没有好奇过,当一台AI系统"听懂"你说的话并作出回应时,它的内部究竟发生了什么?它是真的在"听",还是在做什么我们看不见的事情?这篇研究给出了一个令人意外的答案:那些被设计成直接处理语音的AI模型,在内心深处,其实是悄悄把你说的话"翻译"成了文字,然后用文字来思考,最后再把答案重新转换成语音输出给你。整个过程中,没有人教它这么做——它是自己"学会"的。

要理解这个发现有多特别,我们先来搭建一个场景。假设你雇了一位翻译,专门负责把中文实时翻译成英文。有一天你突然发现,这位翻译其实从来没有系统学过中文,但他每次听到中文后,脑子里会先把它转成英文,在英文的世界里思考,再把答案说出来。这件事本身既让人惊讶,也让人好奇:他为什么会这么做?这种"绕道"的方式是更好还是更差?希伯来大学的研究团队,正是从这个角度出发,深入解剖了一类被称为"语音-文本交错语言模型"的AI系统。

一、语音AI的身份困惑:它到底是在"听"还是在"读"

要理解这项研究,首先得知道这类AI系统是怎么被搭建出来的。现代语音语言模型(简称SLM,Speech Language Model)的工作流程,就像一条三段式流水线。第一步,把你说的话变成一串数字编码,就像把你的声音"压缩"成一个简短的暗语。第二步,一个核心的语言模型对这串暗语进行理解和推理。第三步,把推理结果再转换回语音输出给你。

近年来,研究者发现,如果在第二步中同时用"声音暗语"和普通文字来训练这个核心模型,效果会比只用"声音暗语"好得多——即使最终评判标准是"听进去语音、说出语音"这样纯粹的语音任务,混入文字数据的模型也更聪明。这种训练方式叫做"语音-文本交错"训练:在一段训练数据里,有些词用声音表示,有些词用文字表示,两者混合在同一条数据流里,让模型同时学习两种语言的表达。

但问题来了:为什么混入文字数据之后,模型的语音能力会提升?两种模态(声音和文字)在模型内部是怎么互动的?这个核心问题,在这项研究之前一直没有清晰的答案。希伯来大学的团队决定打开这个"黑箱",亲眼看看里面到底在发生什么。

二、打开黑箱的工具:一块神奇的"X光机"

研究团队使用了一种叫做"logit lens"(可以理解为"词汇透视镜")的分析工具。这个工具的原理并不复杂:在一个深度学习模型里,信息从输入层一层一层往上传递,最终在最顶层输出结果。"词汇透视镜"的做法是,不等信息传到最顶层,而是在每一个中间层都"截一个横截面",把那个层次的信息强行转换成词汇概率,看看在那一刻,模型的"脑子里"最可能想到的是哪个词。

这就好比你在X光机下看一个正在成熟的苹果:不同深度的X光能看到苹果皮、果肉、果核处于什么状态。模型的每一层就像苹果的不同深度,而"词汇透视镜"就是那台X光机,让我们看到在信息流动到不同深度时,模型"心里"正在浮现的词汇。

研究团队把这个工具对准了多个语音-文本交错训练的模型,包括基于Llama3.2-3B和Qwen2.5系列构建的多个版本,仔细观察了当模型处理语音输入时,每一个中间层里出现的词汇分布。他们的发现,出乎所有人意料。

三、三段式的隐秘旅程:语音如何在模型内部"变身"

当一段语音输入进入模型后,研究人员发现,信息在模型内部经历了一段清晰的三幕剧。

第一幕发生在模型最浅的几层(大约第0到第2层)。在这里,模型的输出分布完全被"声音暗语"占据,就像一个刚刚接收到外星信号的接收站,输出的全是奇怪的编码,还没有任何可识别的意义。

第二幕发生在中间的绝大多数层(大约第2到第25层)。就在这里,发生了令人惊讶的事情:声音编码信息逐渐淡出,取而代之的是大量的文字词汇开始浮现在概率分布的顶端。换句话说,模型在内部悄悄地把声音"翻译"成了文字,并用文字来进行推理。研究者把这一现象命名为"隐式潜在转录"(implicit latent transcription)。

第三幕发生在模型最顶端的几层(大约第26到第28层)。在即将输出答案之前,文字词汇的概率又急剧下降,声音编码词汇重新占据主导。这说明模型在最后时刻把文字思考的结果重新"打包"回声音格式,准备输出。

这个过程就像一个熟悉多国语言的外交官:听到中文问题后,他在脑子里先把问题翻译成自己最擅长的母语(英文)来思考,得出答案后,再把答案翻译回中文说出来。整个过程外人看不见,但它确确实实发生了。

更惊人的是,模型没有被任何人"教"过要这样做。没有人在训练时告诉它"你必须先把语音转录成文字"。这种行为完全是模型自己摸索出来的——这就是"隐式"二字的含义。

四、不只是"听懂",还能"猜出"下一步

研究团队并不满足于发现"模型在中间层把语音转换成了文字"这一事实,他们进一步追问:在这个文字的中间状态里,模型仅仅是在"转录"当前说的词,还是已经在思考接下来应该说什么?

为了回答这个问题,研究者设计了一套精妙的测试方案。他们向模型播放一句话,比如"英国的首都是……",然后在每一层的中间状态里,不仅查看当前被说出的词(比如"英国"这个词的转录),还同时查看下一个词的预期(比如"是"这个词),以及整句话的答案(比如"伦敦"这个词)是否已经提前出现在模型的"脑海"中。

测试结果相当清晰。对于"当前词"的转录,模型表现得相当出色:在SIMS-Llama3.2-PI-1/3这个版本的模型里,如果你检查前50个最可能的候选词,高达约77%到80%的语音词汇的正确文字转录能被找到,哪怕是在中间某一个特定层次的某一个位置。这个数字远远高于随机猜测的水平(随机猜测的基线几乎为零)。

对于"下一个词"的预测,信号相对弱一些,但仍然明显高于随机水平:两个Llama变体模型在"前50候选词"标准下,能在约40%的词位找到正确的下一个词;Qwen模型也达到约30%。而对于最终答案的预测,表现最为突出:SIMS-Llama3.2-PI-1/3模型对于约60%的问题,能在某一层的中间状态里提前"看见"正确答案。

这意味着模型不仅仅是个转录机器——在将语音转化为文字的同时,它已经在用这些文字进行语言推理,提前"猜"好了答案,然后再把这一切输出为语音。

值得一提的是,研究者还发现了一个有趣的现象:对于句子中间的词,"下一个词"预测较弱,部分原因是语言本身的歧义性。比如在"英国的……"这个位置,模型可能同时想到"联合王国"或"美国",因此对"首都"的预测信号会被分散稀释。但当测试限定在每句话的最后一个词时(此时答案通常只有一个),模型的预测能力明显更强。

五、是什么让模型学会了"偷偷翻译"?

发现了这个现象之后,研究团队立刻追问另一个关键问题:是什么训练条件,让模型发展出了这种隐式转录能力?

为了回答这个问题,研究者训练了一系列严格控制变量的对照模型。这些模型都基于Llama3.2-3B架构,使用完全相同的数据量和训练步数,但在两个维度上做出不同选择。第一个维度是"起点":模型是从一个已经预训练好的文字语言模型出发,还是从一个随机初始化的空白模型出发。第二个维度是"训练数据结构":只用纯语音数据(S),用语音加文字但不混合(ST),还是加入"语音-文字交错"数据(I-1/3、I-2/3、I-5/6,后缀数字代表交错数据占总训练数据的比例)。

研究结果用一张数据表格清晰地呈现出来。当研究者用"前10候选词"这个标准来衡量时,只有同时满足两个条件的模型,才展现出明显的隐式转录能力:第一,从预训练的文字模型出发(即模型已经具有强大的文字语言能力);第二,训练数据中包含一定比例的语音-文字交错数据。

具体来说,预训练文字模型配合1/3交错数据(PI-1/3)的版本,其当前词转录命中率达到了48.75%(官方版本更高达61.88%)。而预训练文字模型配合纯语音数据(PS)的版本,当前词命中率只有可怜的0.16%,几乎为零。同样,随机初始化的模型即使加入了交错数据(RI-1/3),命中率也只有2.19%,远低于预训练版本。

这个结果说明,隐式转录能力的涌现需要两个条件缺一不可:文字语言模型提供了强大的"文字母语"能力作为思维基底,而交错训练数据则提供了把声音和文字"对齐"起来的关键信号。两者缺少任何一个,模型都无法自发学会这种隐秘的内部翻译过程。

另外,交错数据的比例并非越多越好。当交错数据占比提升到5/6时(PI-5/6),隐式转录能力反而大幅下滑,当前词命中率仅剩2.66%。研究者推测,过高的交错数据比例可能打乱了模型学习纯模态特征的机会,或者改变了训练数据的整体分布,从而反而削弱了这种能力的形成。

六、"偷偷翻译"的质量与常识知识的能力有关系吗?

研究团队最后将目光投向了一个实际问题:隐式转录能力的强弱,是否和模型回答常识性问题的能力有关?

为了测试这个问题,研究者专门制作了一个包含282道题目的常识问答数据集。这些题目涵盖了颜色、月份、家庭关系、首都城市、简单算术等十三个类别,每道题都是"香蕉的颜色是……"或"一加一等于……"这样简短明确的填空题,并且以语音形式输入给模型。

评测方法也很直觉化:研究者给每道正确答案配一个错误答案(比如"香蕉的颜色是黄色" vs "香蕉的颜色是红色"),然后看模型给正确答案打的分是否高于给错误答案打的分。如果是,就算答对。最终统计正确率。

研究者把每个模型的"隐式转录命中率"(即有多少语音词汇能在模型中间层被识别为正确文字)和这道常识题的正确率做对比,发现了正向相关关系。对于当前词的转录,斯皮尔曼相关系数(一种衡量两组数据是否同方向变化的统计指标)达到了0.70,统计显著性p值为0.00526,说明这个相关性不太可能是偶然的。对于下一个词的转录,相关系数也达到0.65,p值0.0119。

简单说,那些"偷偷翻译"能力更强的模型,在常识问答上的表现也更好。但这个关系并不完美。相关系数最高才0.70,说明隐式转录能力并不能完全解释模型的常识水平——肯定还有其他因素在起作用。研究者也注意到,部分随机初始化的模型虽然也能在候选词列表里找到一些正确的转录词汇,但其常识问答的正确率依然较低,说明仅仅"偶尔找到正确词汇"并不等同于真正掌握了知识。

七、"翻译"是个渐进的过程,而且会犯错

除了上述定量分析,研究团队还做了细致的定性观察,发现了两个有趣的现象。

第一个现象是隐式转录往往是逐步建立的,而不是一下子就完成的。以单词"white"(白色)为例,用"词汇透视镜"观察模型的中间层,可以看到在早期层次里,最可能出现的词是"why";随着信息传播到更深的层次,才逐渐变成"-white",最终在某一个关键层次收敛到完整的"white"。类似的现象出现在很多词上,比如"kingdom"(王国)在早期层次会先出现"king","Pakistan"(巴基斯坦)会先出现"pack","teacher"(教师)会先出现"tea"再变成"teach"。这说明模型处理声音时,是一边"听"一边更新对当前词的文字猜测,就像人类听到一个单词的前几个音节就开始猜整个词,等更多音节到来后再修正。

第二个现象是隐式转录有时会出错,而且错误往往带有明显的声音相似性。最典型的例子是单词"lime"(青柠):模型先是预测"lie"(谎言),最终落到"line"(线条),而不是正确的"lime"。"lime"和"line"在发音上非常接近,所以这种错误并不是随机的,而是声音上的混淆。研究者认为,这种转录错误可能是语音模型和文字模型之间仍然存在差距的一个根源——模型在内部进行的文字转录并不完美,偶尔会引入噪声。

这两个现象合在一起,给了我们一幅更完整的图景:模型在内部确实在进行类似于"语音识别"的工作,这个过程是动态累积的,会随着声音输入的增加而逐渐精确,但也存在失误的可能,而且失误的方式和人类的听力误解非常相似。

归根结底,这项研究揭示的事情既让人惊喜又引发深思。原来那些看起来直接处理语音的AI模型,并不是真正在用声音来思考,而是把声音作为一个入口,在内心深处迅速"翻译"成文字,用文字的方式来理解世界,然后再把答案包装成声音输出。这套流程完全是模型自己摸索出来的,没有人显式地教它,但它偏偏就这么做了。

这对语音AI的未来意味着什么?可能有很多值得探索的方向。既然知道了模型内部有这样的隐式转录机制,研究者就可以考虑是否能直接针对这个中间过程进行优化,比如让转录更准确、让文字推理更高效,从而整体提升语音AI的表现。当然,这也带来了新的疑问:如果语音AI本质上是在"翻译成文字再思考",那些依赖语音本身特有信息的任务(比如识别说话者的情绪、口音、语调等)是否会因此受到损失?这是研究者明确留给未来工作的开放问题。

另一个值得思考的问题是:为什么即使模型在内部是用文字来思考的,它的语音输入能力还是明显弱于文字输入能力(这种差距被研究者称为"模态鸿沟")?如果内部转录机制是存在的,理论上差距应该很小——但现实并非如此。研究者猜测可能的原因包括:转录过程本身有误差、声音编码比文字占用更多的计算资源,以及语音天然比文字携带更多冗余信息,导致模型需要"消化"更多才能提取同等的语义内容。这些假设都等待着未来的研究去验证。

对于普通读者来说,这项研究最直接的启示或许是:下次你对着语音助手说话时,它的"大脑"里很可能正在进行一场悄无声息的文字翻译,然后用文字的逻辑来决定怎么回答你。这个过程既神奇又有点出乎意料,但也许正是这种"绕道文字"的方式,让语音AI能够借用人类数百年积累的文字知识,从而变得比单纯处理声音更聪明。有兴趣进一步了解其中细节的读者,可以通过arXiv编号2606.22473查阅完整的原始论文。

Q&A

Q1:语音语言模型的"隐式潜在转录"是什么意思?

A:隐式潜在转录是指语音-文本交错语言模型在处理语音输入时,会在内部中间层自动把声音编码"翻译"成对应的文字词汇,并用文字方式进行语言推理,最后再转回声音输出。这个过程完全是模型自发形成的,没有任何显式的语音识别训练目标。

Q2:为什么训练语音模型时加入文字数据会让它变得更好?

A:研究表明,仅仅加入文字数据还不够,关键是要同时满足两个条件:从预训练好的文字语言模型出发,并且使用"语音-文字交错"格式的训练数据。前者给模型提供了强大的文字推理能力作为基础,后者提供了把声音和文字"对齐"的学习信号。两者缺一,模型都无法发展出内部的隐式转录机制。

Q3:语音模型的内部转录准确率有多高?

A:在SIMS-Llama3.2-PI-1/3(官方版本)中,如果检查每个位置最可能的前50个候选词,约77%到80%的语音词汇能在某一中间层找到正确的文字转录。但转录过程并不完美,会出现声音相似的混淆错误,比如把"lime"误认为"line",而且对下一个词的预测准确率会进一步下降到约40%左右。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐