WenetSpeech中文语音识别数据集完整使用指南
WenetSpeech是一个包含超过10000小时的多领域中文语音识别数据集,专为训练和评估中文语音识别系统而设计。该数据集从YouTube和Podcast收集语音数据,采用光学字符识别和自动语音识别技术进行标注,是目前最全面的中文语音识别资源之一。## 🎯 数据集核心价值### 数据规模与质量- **总时长**:22435小时语音数据- **高质量标注**:10005小时高置信度数
·
WenetSpeech中文语音识别数据集完整使用指南
WenetSpeech是一个包含超过10000小时的多领域中文语音识别数据集,专为训练和评估中文语音识别系统而设计。该数据集从YouTube和Podcast收集语音数据,采用光学字符识别和自动语音识别技术进行标注,是目前最全面的中文语音识别资源之一。
🎯 数据集核心价值
数据规模与质量
- 总时长:22435小时语音数据
- 高质量标注:10005小时高置信度数据
- 多领域覆盖:涵盖10个不同领域的语音内容
主要应用场景
- 中文语音识别模型训练
- 语音技术研究开发
- 学术实验和性能评测
📥 快速安装配置
环境要求
- 操作系统:Linux或MacOS
- 必备工具:wget、openssl 1.1.1或更高版本
- 存储空间:建议准备至少500GB可用空间
下载前准备
-
获取访问凭证:
- 阅读并同意用户协议
- 申请下载密码
- 将密码保存至SAFEBOX/password文件
-
验证系统环境:
# 检查wget是否安装 which wget # 检查openssl版本 openssl version
数据集下载步骤
方法一:从腾讯会议下载(推荐)
bash utils/download_wenetspeech.sh 下载目录 解压目录
方法二:从ModelScope下载
-
安装ModelScope环境:
conda create -n modelscope python=3.7 conda activate modelscope pip install torch pip install modelscope -
修改下载脚本配置:
sed -i 's/modelscope=false/modelscope=true/g' utils/download_wenetspeech.sh -
执行下载命令:
bash utils/download_wenetspeech.sh 下载目录 解压目录
🏗️ 数据集架构详解
数据分类标准
| 数据集类型 | 时长(小时) | 置信度 | 主要用途 |
|---|---|---|---|
| 高标注数据 | 10005 | ≥0.95 | 监督学习训练 |
| 弱标注数据 | 2478 | 0.6-0.95 | 半监督或噪声训练 |
| 未标注数据 | 9952 | / | 无监督训练或预训练 |
领域分布详情
| 领域类别 | YouTube时长 | Podcast时长 | 总时长 |
|---|---|---|---|
| 戏剧 | 4338.2 | 0 | 4338.2 |
| 阅读 | 0 | 1110.2 | 1110.2 |
| 新闻 | 0 | 868 | 868 |
| 访谈 | 324.2 | 614 | 938.2 |
| 纪录片 | 386.7 | 90.5 | 477.2 |
| 有声书 | 0 | 250.9 | 250.9 |
训练子集划分
| 子集名称 | 置信度范围 | 时长(小时) |
|---|---|---|
| L | 0.95-1.0 | 10005 |
| M | 1.0 | 1000 |
| S | 1.0 | 100 |
🔧 工具包集成方案
支持的主流框架
项目提供了三种主流语音识别工具包的完整集成方案:
-
WeNet工具包 - toolkits/wenet/
- 端到端语音识别框架
- 配置文件:conf/train_conformer.yaml
-
ESPNet工具包 - toolkits/espnet/
- 支持多种网络结构
- 训练配置:conf/train_asr.yaml
-
Kaldi工具包 - toolkits/kaldi/
- 传统语音识别工具链
- 包含RNNLM语言模型训练
评估数据集
| 评估集 | 时长 | 数据来源 | 特点描述 |
|---|---|---|---|
| DEV | 20 | 互联网 | 训练过程中的交叉验证 |
| TEST_NET | 23 | 互联网 | 匹配测试场景 |
| TEST_MEETING | 15 | 真实会议 | 远场、对话、自发性语音 |
⚠️ 重要注意事项
版本兼容性
- 确保使用openssl 1.1.1或更高版本
- Python环境建议使用3.7或更高版本
- 下载过程中保持网络稳定
常见问题解决
- 下载中断:脚本支持断点续传
- 密码错误:检查SAFEBOX/password文件格式
- 存储空间不足:确保有足够的磁盘空间
🚀 性能基准参考
根据项目提供的基准测试结果,各工具包在主要评估集上的表现:
| 工具包 | DEV集 | TEST_NET | TEST_MEETING | AIShell-1 |
|---|---|---|---|---|
| Kaldi | 9.07 | 12.83 | 24.72 | 5.41 |
| ESPNet | 9.70 | 8.90 | 15.90 | 3.90 |
| WeNet | 8.88 | 9.70 | 15.59 | 4.61 |
通过本指南,您可以快速上手使用WenetSpeech数据集,为中文语音识别研究和应用提供强有力的数据支持。
更多推荐



所有评论(0)