WenetSpeech中文语音识别数据集完整使用指南

WenetSpeech是一个包含超过10000小时的多领域中文语音识别数据集，专为训练和评估中文语音识别系统而设计。该数据集从YouTube和Podcast收集语音数据，采用光学字符识别和自动语音识别技术进行标注，是目前最全面的中文语音识别资源之一。## 🎯 数据集核心价值### 数据规模与质量- **总时长**：22435小时语音数据- **高质量标注**：10005小时高置信度数

魏秦任

529人浏览 · 2025-11-21 08:38:33

魏秦任 · 2025-11-21 08:38:33 发布

WenetSpeech中文语音识别数据集完整使用指南

【免费下载链接】WenetSpeech A 10000+ hours dataset for Chinese speech recognition 项目地址: https://gitcode.com/gh_mirrors/we/WenetSpeech

WenetSpeech是一个包含超过10000小时的多领域中文语音识别数据集，专为训练和评估中文语音识别系统而设计。该数据集从YouTube和Podcast收集语音数据，采用光学字符识别和自动语音识别技术进行标注，是目前最全面的中文语音识别资源之一。

🎯 数据集核心价值

数据规模与质量

总时长：22435小时语音数据
高质量标注：10005小时高置信度数据
多领域覆盖：涵盖10个不同领域的语音内容

主要应用场景

中文语音识别模型训练
语音技术研究开发
学术实验和性能评测

📥 快速安装配置

环境要求

操作系统：Linux或MacOS
必备工具：wget、openssl 1.1.1或更高版本
存储空间：建议准备至少500GB可用空间

下载前准备

获取访问凭证：
- 阅读并同意用户协议
- 申请下载密码
- 将密码保存至SAFEBOX/password文件

验证系统环境：

# 检查wget是否安装
which wget

# 检查openssl版本
openssl version

数据集下载步骤

方法一：从腾讯会议下载（推荐）

bash utils/download_wenetspeech.sh 下载目录 解压目录

方法二：从ModelScope下载

安装ModelScope环境：

conda create -n modelscope python=3.7
conda activate modelscope
pip install torch
pip install modelscope

修改下载脚本配置：

sed -i 's/modelscope=false/modelscope=true/g' utils/download_wenetspeech.sh

执行下载命令：

bash utils/download_wenetspeech.sh 下载目录 解压目录

🏗️ 数据集架构详解

数据分类标准

数据集类型	时长(小时)	置信度	主要用途
高标注数据	10005	≥0.95	监督学习训练
弱标注数据	2478	0.6-0.95	半监督或噪声训练
未标注数据	9952	/	无监督训练或预训练

领域分布详情

领域类别	YouTube时长	Podcast时长	总时长
戏剧	4338.2	0	4338.2
阅读	0	1110.2	1110.2
新闻	0	868	868
访谈	324.2	614	938.2
纪录片	386.7	90.5	477.2
有声书	0	250.9	250.9

训练子集划分

子集名称	置信度范围	时长(小时)
L	0.95-1.0	10005
M	1.0	1000
S	1.0	100

🔧 工具包集成方案

支持的主流框架

项目提供了三种主流语音识别工具包的完整集成方案：

WeNet工具包 - toolkits/wenet/
- 端到端语音识别框架
- 配置文件：conf/train_conformer.yaml
ESPNet工具包 - toolkits/espnet/
- 支持多种网络结构
- 训练配置：conf/train_asr.yaml
Kaldi工具包 - toolkits/kaldi/
- 传统语音识别工具链
- 包含RNNLM语言模型训练

评估数据集

评估集	时长	数据来源	特点描述
DEV	20	互联网	训练过程中的交叉验证
TEST_NET	23	互联网	匹配测试场景
TEST_MEETING	15	真实会议	远场、对话、自发性语音

⚠️ 重要注意事项

版本兼容性

确保使用openssl 1.1.1或更高版本
Python环境建议使用3.7或更高版本
下载过程中保持网络稳定

常见问题解决

下载中断：脚本支持断点续传
密码错误：检查SAFEBOX/password文件格式
存储空间不足：确保有足够的磁盘空间

🚀 性能基准参考

根据项目提供的基准测试结果，各工具包在主要评估集上的表现：

工具包	DEV集	TEST_NET	TEST_MEETING	AIShell-1
Kaldi	9.07	12.83	24.72	5.41
ESPNet	9.70	8.90	15.90	3.90
WeNet	8.88	9.70	15.59	4.61

通过本指南，您可以快速上手使用WenetSpeech数据集，为中文语音识别研究和应用提供强有力的数据支持。

【免费下载链接】WenetSpeech A 10000+ hours dataset for Chinese speech recognition 项目地址: https://gitcode.com/gh_mirrors/we/WenetSpeech

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

从Anthropic官方文档看Claude的安全机制：隔离、模型与外部内容的三层防御体系

十二个月前，如果有人提议让Claude拥有足以搞垮Anthropic内部服务的权限，我们一定会断然拒绝。而今天，这种访问级别已经成为常态，Anthropic内部的开发者们正因为这种部署而大幅提升了生产力。这是我读完Anthropic官方工程博客《How we contain Claude across products》（2026年5月25日发布）后的第一感受。当AI Agent的能力越强大，它的