语音识别准确率评测标准：WER与CER指标详解

词错误率（WER）和字符错误率（CER）是衡量语音识别准确性的核心指标，基于编辑距离原理，适用于不同语言场景。中文因无明确分词边界，多采用CER以避免切分误差，而英文常用WER。两者在工业评估中广泛用于模型优化、热词调整和文本规整验证，是持续提升识别质量的关键依据。

瘦下来

798人浏览 · 2026-01-04 11:00:43

瘦下来 · 2026-01-04 11:00:43 发布

语音识别准确率评测标准：WER与CER指标详解

在智能客服、会议转录和语音助手日益普及的今天，一个语音识别系统到底“好不好用”，早已不能靠“听起来还行”这种主观感受来判断。真实场景中，用户说一句“几点开门”，系统若听成“几点开房”，哪怕只错两个字，也可能引发尴尬甚至误解。如何科学、客观地衡量这类错误？这就引出了语音识别领域最核心的两个量化指标——词错误率（WER） 和 字符错误率（CER）。

这两个数字背后，不仅是一套严谨的计算逻辑，更是驱动模型优化、功能迭代的关键依据。以钉钉联合通义推出的 Fun-ASR 系统为例，虽然其 WebUI 界面并未直接展示 WER 或 CER 数值，但诸如热词增强、ITN 文本规整等设计，本质上都是围绕降低这些指标展开的工程实践。

核心原理：从编辑距离说起

WER 与 CER 的本质，是基于最小编辑距离（Minimum Edit Distance）的比对方法。它们衡量的是：将语音识别输出的文本（称为 hypothesis）变成人工标注的标准文本（reference）最少需要多少次“修改”操作。

这些操作分为三类：

替换（Substitution）：把一个词/字改成另一个
删除（Deletion）：参考中有，但识别结果漏了
插入（Insertion）：识别结果多出了参考里没有的内容

最终的错误率公式统一为：

$$
\text{Error Rate} = \frac{S + D + I}{N}
$$

其中 $ S $ 是替换数，$ D $ 是删除数，$ I $ 是插入数，$ N $ 是参考文本的总单位数（词或字符）。数值越低越好，理想情况下为 0。

为什么分“词”和“字符”？

这取决于语言特性。

对于英语这类以空格分隔单词的语言，WER 更自然。比如：

Reference: good morning
Hypothesis: good evening
→ 替换1次（morning → evening），WER = 1/2 = 50%

但对于中文、日文这类无天然分词边界的情况，先分词再算 WER 可能引入额外误差。例如，“开放时间”被错误切分为“开 / 放时 / 间”，即使语义正确，也会被判为多个词错误。因此，CER 直接按字符比对，避免了这一问题。

Reference: 开放时间
Hypothesis: 开房时间
→ 替换1个字符（放→房），CER = 1/4 = 25%

可以看到，CER 能更细粒度地反映局部偏差，尤其适合捕捉同音错别字问题。

如何计算？Levenshtein 算法实战解析

支撑 WER/CER 的核心技术是 Levenshtein Distance（莱文斯坦距离），一种经典的动态规划算法。它的核心思想是构建一张二维表，记录从参考序列前缀到识别序列前缀所需的最小编辑代价。

假设我们要对比以下两个字符串：

Reference: 你好世界
Hypothesis: 你好世界啊

拆分为字符序列后，执行匹配过程如下：

	ε	你	好	空	世	界	啊
ε	0	1	2	3	4	5	6
你	1	0	1	2	3	4	5
好	2	1	0	1	2	3	4
世	3	2	1	2	1	2	3
界	4	3	2	3	2	1	2

状态转移规则如下：

如果当前字符相同：dp[i][j] = dp[i-1][j-1]
否则取三项最小值加1：
替换：dp[i-1][j-1] + 1
删除（参考中删掉一个）：dp[i-1][j] + 1
插入（识别中多出一个）：dp[i][j-1] + 1

最终得到编辑距离为 2（插入“空格”和“啊”），参考长度为 4，故：

$$
\text{CER} = \frac{0+0+2}{4} = 50\%
$$

整个过程可在毫秒级完成，非常适合自动化批量评估。

实际差异：WER vs CER 对比一览

维度	WER	CER
单位	词	字符
适用语言	英文、德语等有明确分词的语言	中文、日文、韩文等
分词依赖性	高 — 错误分词直接影响结果	无 — 直接逐字比对
错误敏感度	关键词错误影响大（如专有名词）	细粒度检测强（如错别字、标点）
工业标准	LibriSpeech、WSJ 等英文基准常用	AISHELL、THCHS-30 等中文任务标配
典型应用场景	英文会议转录、播客字幕生成	客服对话识别、医疗记录录入

经验建议：多语言系统应根据目标语言灵活选择。Fun-ASR 支持中英日混合识别，在评估时需按语言分别采用 CER 或 WER，否则会失真。

代码实现：自动化评估脚本怎么写？

借助开源库 jiwer，我们可以快速实现标准化的 WER/CER 计算。以下是实际可用的 Python 示例：

import jiwer

# 示例数据
reference = "开放时间是早上九点"
hypothesis = "开房时间是早晨九点钟"

# 预处理管道：去空行、转小写、去首尾空格
transformation = jiwer.Compose([
    jiwer.RemoveEmptyStrings(),
    jiwer.ToLowerCase(),
    jiwer.Strip(),
])

# 计算 WER（默认按词处理）
wer_result = jiwer.wer(
    reference,
    hypothesis,
    truth_transform=transformation,
    hypothesis_transform=transformation
)

# 自定义 CER：将每个字符视为独立“词”
def char_error_rate(ref, hyp):
    ref_chars = list(ref)
    hyp_chars = list(hyp)
    return jiwer.wer(ref_chars, hyp_chars)

cer_result = char_error_rate(reference, hypothesis)

print(f"WER: {wer_result:.4f}")  # 输出：约 0.4（2处替换/5词）
print(f"CER: {cer_result:.4f}")  # 输出：约 0.3333（3字符不同/9字）

这段代码可直接集成进 CI/CD 流程，每次模型更新后自动跑测试集，确保性能不退化。

在 Fun-ASR 中的应用：不只是指标，更是优化杠杆

尽管用户在使用 Fun-ASR WebUI 时看不到 WER/CER 数值，但这套评估体系贯穿于系统的每一个环节：

graph TD
    A[音频输入] --> B[VAD 检测]
    B --> C[ASR 模型推理]
    C --> D[ITN 文本规整]
    D --> E[输出规整文本]
    E --> F[与参考文本对比]
    F --> G[计算 CER/WER]

关键点在于：最终的错误率不是单一模块决定的，而是整个链路协同作用的结果。

批量处理中的质量验证流程

假设我们有一批带标注的测试音频，想验证某次模型升级是否有效，可以这样操作：

准备测试集
test_data/ ├── audio_01.wav ├── audio_01.txt # 开放时间是上午九点 ├── audio_02.wav └── audio_02.txt # 客服电话请拨打 10086
批量识别并保存结果

使用 Fun-ASR 的批量上传功能，启用 ITN 规整，导出所有 .result.txt 文件。

运行评估脚本

import os
from pathlib import Path

results = []
test_dir = Path("test_data")
for wav_file in test_dir.glob("*.wav"):
    txt_file = wav_file.with_suffix(".txt")
    with open(txt_file, "r", encoding="utf-8") as f:
        reference = f.read().strip()

    result_file = Path("output") / (wav_file.stem + ".result.txt")
    with open(result_file, "r", encoding="utf-8") as f:
        hypothesis = f.read().strip()

    cer = char_error_rate(reference, hypothesis)
    results.append({"file": wav_file.name, "cer": cer})

avg_cer = sum(r["cer"] for r in results) / len(results)
print(f"平均 CER: {avg_cer:.4f}")

定位问题样本

若某条音频 CER 显著偏高，可回溯分析：
- 是否存在背景噪音？
- 是否涉及未登录词（如品牌名、专业术语）？
- ITN 是否错误转换数字格式？

典型问题与优化策略

场景一：同音词混淆 —— “开门”变“开房”

这是中文语音识别中最常见的痛点之一。

根本原因：声学模型难以区分同音异义词，语言模型先验不足
解决方案：
添加热词：“营业时间”、“几点开门”、“对外开放”
提升相关短语在解码时的优先级
效果验证：
加热词前后各测试 100 条相似语句
平均 CER 从 25% 降至 8%，说明干预有效

小技巧：热词不宜过多，否则可能压制其他正常表达。建议控制在 50 个以内，并定期清理低频项。

场景二：数字表达不一致 —— “二零二五年” vs “2025年”

口语中常说“二零二五”，但书面期望输出阿拉伯数字。

原始输出：两千零二十五年 或 二零二五年
期望输出：2025年
解决方案：启用 ITN（Inverse Text Normalization）
内部规则自动映射：“二零二五” → “2025”
补全单位：“年”
效果：
原始 CER 较高（字符差异大）
启用 ITN 后，输出与标准文本高度一致，CER 显著下降

注意：ITN 应作为后处理标准步骤，尤其在金融、政务等对格式要求严格的场景中必须开启。

工程最佳实践指南

项目	推荐做法
评估指标选择	中文优先用 CER，英文优先用 WER；多语言混合时按语言分类统计
文本预处理	统一去除标点、转小写、清理多余空格和换行符
热词设计	聚焦行业术语、品牌名、高频指令；避免泛化词汇
ITN 使用策略	生产环境默认开启；开发阶段可关闭以观察原始输出
测试集构建原则	覆盖真实场景：噪音、口音、语速变化、多人对话、远场拾音
性能监控机制	建立基线版本，每日运行回归测试，绘制 CER/WER 趋势图，设置告警阈值

特别提醒：不要过度追求单一指标最优。例如，某些模型为了降低 CER，倾向于输出更短文本（减少插入风险），反而丢失信息。应结合人工抽查、BLEU、ROUGE 等辅助指标综合评估。

结语：基础指标的长期价值

尽管近年来端到端模型、语义理解、意图识别等高级能力不断发展，但 WER 与 CER 依然是语音识别系统最坚实的质量基石。它们简单、透明、可复现，能够在模型迭代过程中提供即时反馈。

在 Fun-ASR 这样的工业级系统中，这两个指标不仅是实验室里的学术参数，更是连接技术与业务的核心桥梁——通过量化误差，指导热词优化、验证 ITN 效果、保障服务稳定性。

未来，随着大模型推动 ASR 向“理解+生成”融合方向演进，我们或许会看到更多高层次的评估维度，如语义相似度、任务完成率等。但在可预见的将来，只要还需要“把声音变成文字”，WER 与 CER 就不会退出舞台。掌握它们的原理与应用，是每一位语音工程师不可或缺的基本功。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

AI导出鸭惊了！DeepSeek代码手机导出保姆级实操，不看亏一套海景房

AI Agent技术社区

后端接入 AI Agent：Tool Calling 网关、幂等与审计日志实战

AI Agent技术社区

OpenClaw vs Hermes Agent：企业级执行 vs 自我进化，一文读懂怎么选！

AI Agent 开源双子星深度对比：OpenClaw（GitHub 26.4w⭐）主打工程化落地，四层记忆+20+渠道+13,700+技能，适合企业自动化；Hermes Agent（53天10w⭐）主打闭环学习，四级记忆+自动技能进化+3,200+社区技能，越用越聪明。两者可互补组合：OpenClaw 做稳定执行引擎，Hermes 做持续学习大脑。短期落地选 OpenClaw，长期陪伴选 Her