我一直觉得,语音识别真正尴尬的时刻,不是完全听不见,而是听见了但理解错了。

你说的是「蔚来适合家用吗」,它给你写成「未来适合家用吗」。

你讲一句带口音的方言,它努力了一下,然后生成了一段看起来很流畅、但跟原意没太大关系的普通话。

更麻烦的是,有时候它不是错得很离谱,而是错得非常像真的。你如果不回听原音,甚至很难第一时间发现问题。

这才是语音识别后半场最有意思的地方。

标准普通话、清晰录音、安静环境,这些场景下,主流 ASR 模型其实已经卷了很多年。真正把模型拉回现实的,是那些不标准的声音,方言、小语种、口语里的省略、夹杂、同音词,还有只有结合前后文才能听懂的指代。

所以我看到阿里在 2026 年 6 月推出 Fun-ASR-Flash 的时候,最在意的不是「又一个大模型发布了」这种热闹,而是它这次把重点放在了三个很具体的地方,方言,多语种,上下文。

坦率的讲,这三个词单独拿出来都不新鲜。但它们放在一起,就有点像在提醒我们一件事,语音识别不是只要把声音变成文字,它要开始理解说话人到底想表达什么。

在这里插入图片描述

普通话之外,才是真实世界

很多朋友可能没有意识到,方言对 ASR 来说不是普通话换个口音这么简单。

方言里有声调变化,有本地词汇,有连读吞音,有些表达方式甚至已经接近另一套语言系统。人脑能听懂,是因为我们从小在那个语境里泡着,知道这句话大概率在说什么,也知道哪些词在本地语境里更常出现。

模型就没这么轻松了。它要同时判断声学特征和语义概率,还要在各种相似发音里选一个最合理的结果。你想想看,一个普通话模型如果没怎么见过温州话、宁波话、闽南语,它听起来就像突然被扔进一个熟悉又陌生的世界。

这也是 Fun-ASR-Flash 这次方言能力值得看的地方。

按照原文和阿里官方口径,它覆盖了官话、吴语、粤语、闽语、客家话、赣语、湘语、晋语八大方言区,一共十六种方言。在内部工业级方言评测集上,平均语义准确率是 87.8%,相比 Fun-ASR-1.5 的 77.6% 有明显提升。

这里我必须先说清楚,这不是我自己重新跑完整评测得到的结论,而是发布材料里的评测口径。我们看这类数据时,最重要的不是把它当成绝对胜负表,而是看它到底在什么场景里解决了什么问题。

在这里插入图片描述

这张雷达图其实挺直观的。

Fun-ASR-Flash 在十六种方言上整体都比较靠外,平均准确率 87.8%。对比项里,腾讯云是 74.3%,豆包是 72.2%,讯飞是 69.4%,Fun-ASR-1.5 是 77.6%。

更有意思的是具体方言。河南话 97.4%,济南话 96.8%,四川话 95.9%,这些官话方言的表现已经比较接近我们日常理解里的「能用」。但到了吴语体系,难度就上来了,温州话 79.7%,宁波话 81.7%,虽然还是领先,但你也能看到真实世界的复杂性并没有被一张漂亮图表抹平。

这块需要注意一下,方言 ASR 的价值不只是让模型能听懂地方话。更现实的场景,是客服、政务热线、医疗问诊、老年人设备交互、短视频字幕这些地方,用户不会为了模型刻意切换成标准普通话。

你总不能跟一个刚打进客服电话的老人说,叔叔阿姨您先换成播音腔再讲一遍。

这就有点反常识了,越是面向普通人的技术,越不能要求普通人变得标准。

小语种不是边角料

顺着方言再往外走,就是多语种。

以前我们聊多语种 ASR,很多时候默认想的是英语、日语、韩语,最多再加几个欧洲主流语言。但真实业务里,真正麻烦的往往是东南亚语言、南亚语言、阿拉伯语,以及各种中外夹杂的表达。

做出海客服的人应该很熟这种痛苦。用户发来的语音里可能上一句是中文,下一句变成泰语,中间夹一个英文产品名。你说它是翻译问题吧,第一步连转写都没转准。你说它是 ASR 问题吧,背后又牵扯语料稀缺、口音差异、语境判断。

Fun-ASR-Flash 这次单模型支持三十种语言,覆盖中日韩、东南亚多语、印地语、阿拉伯语,以及英法德西葡俄这些欧洲主流语言。原文里特别提到,它对东亚和东南亚场景做了专项优化。

在这里插入图片描述

在 GigaSpeechBench 的东亚和东南亚多语种评测里,它用的是语义错误率,数值越低越好。Fun-ASR-Flash 的平均错误率是 17.09,低于 Azure 的 22.00、ElevenLabs Scribe v2 的 22.11、Gemini 3.0 Flash 的 27.02,也低于上一代 Fun-ASR-1.5 的 22.00。

我自己的感受是,这个点对普通读者可能没那么性感,但对真正做业务的人会很关键。

因为小语种不是一个边角料问题。它往往决定一个系统能不能从中文互联网走到更真实的全球场景里。尤其是东南亚,语言种类多,口音差异大,内容平台、客服、教育、会议、直播都需要听懂当地语言。

当然,这里也不能把三十种语言理解成所有语言都已经同等成熟。多语种模型通常会有强弱项,语料多的语言更稳,低资源语言更依赖训练数据和场景适配。官方评测里表现更好,不等于你拿任意噪声环境、任意口音、任意设备录音进去都能稳。

但它至少说明一件事,ASR 的竞争正在从「我能不能转普通话」变成「我能不能在更混乱、更跨地域的真实语音里保持可用」。

这才是多语种这块真正有价值的地方。

最让我在意的是上下文

如果只看方言和多语种,这篇文章可能还是一篇常规模型升级稿。

但上下文这块,我是真的觉得有点意思。

因为它碰到的是语音识别里一个很烦的问题,同音词。

同样一段发音,可能对应很多种文字。人为什么能选对?不是因为耳朵更强,而是因为你脑子里有上下文。前面刚聊完新能源车,你听到 wei lai,大概率会写成「蔚来」。如果前面聊的是人生规划,那才更可能是「未来」。

模型如果只听当前这几秒音频,它就很容易按高频词走。于是你就会看到那种很离谱但又很合理的错误。

这次 Fun-ASR-Flash 强化的泛 Context,大概可以理解成两类信息。一类是历史对话话题,一类是用户自定义热词,比如人名、产品名、品牌名。模型在解码时利用这些线索,让声学信息和语义逻辑对齐。

在这里插入图片描述
在这里插入图片描述

对话场景这张表很直接。

在上下文相关场景下,句准率从 26.8% 提升到 48.2%。在上下文无关场景下,也从 60.6% 提升到 69.1%。

你可能会问,相关上下文才 48.2%,是不是也不算特别高?

是的,这就是边界。这个数字恰恰说明,同音消歧不是一个加点热词就能彻底解决的问题。它仍然很难。但从 26.8% 到 48.2%,对很多强上下文场景来说,已经是明显改善。

我反而觉得这种数据比动不动 99% 更可信一点。它没有假装真实世界已经被解决了,而是在告诉你,模型开始有能力利用更多线索。

在这里插入图片描述

输入法场景里,加入上下文和热词后,字错率从 4.24 降到 3.40,相对下降约 20%。召回率从 73.3% 提升到 84.2%,句准率从 66.0% 提升到 70.6%。

这个场景我非常能理解。

因为输入法里最烦的就是人名、品牌名、地名。你明明说的是一个具体的人,模型却总是给你写成更常见的词。比如「暴珑」会被写成「暴龙」。这不是声学模型完全没听见,而是它缺少一个判断依据,它不知道你这里真的有一个叫暴珑的人。

在这里插入图片描述
在这里插入图片描述

上面两张图把这个逻辑讲得很清楚。

有历史对话的时候,模型知道你在聊新能源车,于是把 wei lai 识别成「蔚来」。有热词的时候,模型知道「暴珑」是一个候选人名,于是不再写成更常见的「暴龙」。

这块如果落到产品里,会很有想象空间。会议纪要可以提前注入参会人姓名、项目名、客户名。客服系统可以注入产品型号、业务术语。输入法可以结合用户通讯录和常用词。教育录播可以注入课程术语。医疗场景可以注入药名和科室名。

当然,想象空间不等于直接可用。

热词注入如果做不好,也可能带来新的误识别。上下文如果太长、太乱、太不相关,模型也可能被带偏。尤其是隐私敏感场景,历史对话和用户词库怎么存、怎么用、怎么授权,都是绕不开的问题。

所以我更愿意把它看成一个方向,ASR 不能只靠耳朵,它需要一点记忆,一点背景知识,一点业务现场的线索。

ASR 的后半场,是理解力

我有时候觉得,语音识别这个领域挺像自动驾驶。

早期大家最关心的是基础能力,能不能看见车道线,能不能识别红绿灯,能不能在理想路况下跑起来。到了后面,真正难的是那些不规整的场景,雨天、施工、临时变道、外卖车突然横穿、路口有人犹豫。

ASR 也一样。

标准普通话、清晰录音、单人朗读,这像是晴天直路。它当然重要,但真实世界不是晴天直路。真实世界里有人带口音,有人吞字,有人中英混说,有人一句话里夹着产品名、人名、地名,还有人说了一半改口。

这时候模型要做的事情,就不只是把音节一个个拼出来。

它要判断,这个声音在这个上下文里最可能对应什么词。它要知道,用户不是在写文学散文,而是在问一辆车适不适合家用。它要知道,眼前这个 baolong 可能不是暴龙,而是一个人的名字。

这也是 Fun-ASR-Flash 这次升级最值得看的地方。方言、多语种、上下文,这三件事听起来是三个功能点,但放在一起,其实都在指向同一个问题,模型能不能更接近真实语音里的理解过程。

说真的,我不觉得一个模型版本就能把语音识别所有老问题解决掉。

方言还会有长尾,噪声还会干扰,小语种还会受语料限制,上下文也可能带来新的误判。尤其在工业系统里,ASR 只是链路的第一环,后面还有标点、说话人分离、摘要、知识库、业务系统接入,每一环都会影响最终体验。

但我觉得 Fun-ASR-Flash 值得聊,是因为它把问题摆到了更真实的位置上。

语音识别不是为了证明模型能在干净测试集里拿高分,而是为了让一个说方言的人、一个跨境客服、一个开会时中英夹杂的产品经理、一个名字总被写错的普通用户,都能少被机器误解一点。

这件事听起来不够酷。

但很有用。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐