WenetSpeech中文语音识别数据集完整使用指南

【免费下载链接】WenetSpeech A 10000+ hours dataset for Chinese speech recognition 【免费下载链接】WenetSpeech 项目地址: https://gitcode.com/gh_mirrors/we/WenetSpeech

WenetSpeech是一个包含超过10000小时的多领域中文语音识别数据集,专为训练和评估中文语音识别系统而设计。该数据集从YouTube和Podcast收集语音数据,采用光学字符识别和自动语音识别技术进行标注,是目前最全面的中文语音识别资源之一。

🎯 数据集核心价值

数据规模与质量

  • 总时长:22435小时语音数据
  • 高质量标注:10005小时高置信度数据
  • 多领域覆盖:涵盖10个不同领域的语音内容

主要应用场景

  • 中文语音识别模型训练
  • 语音技术研究开发
  • 学术实验和性能评测

📥 快速安装配置

环境要求

  • 操作系统:Linux或MacOS
  • 必备工具:wget、openssl 1.1.1或更高版本
  • 存储空间:建议准备至少500GB可用空间

下载前准备

  1. 获取访问凭证

    • 阅读并同意用户协议
    • 申请下载密码
    • 将密码保存至SAFEBOX/password文件
  2. 验证系统环境

    # 检查wget是否安装
    which wget
    
    # 检查openssl版本
    openssl version
    

数据集下载步骤

方法一:从腾讯会议下载(推荐)
bash utils/download_wenetspeech.sh 下载目录 解压目录
方法二:从ModelScope下载
  1. 安装ModelScope环境:

    conda create -n modelscope python=3.7
    conda activate modelscope
    pip install torch
    pip install modelscope
    
  2. 修改下载脚本配置:

    sed -i 's/modelscope=false/modelscope=true/g' utils/download_wenetspeech.sh
    
  3. 执行下载命令:

    bash utils/download_wenetspeech.sh 下载目录 解压目录
    

WenetSpeech数据集结构

🏗️ 数据集架构详解

数据分类标准

数据集类型 时长(小时) 置信度 主要用途
高标注数据 10005 ≥0.95 监督学习训练
弱标注数据 2478 0.6-0.95 半监督或噪声训练
未标注数据 9952 / 无监督训练或预训练

领域分布详情

领域类别 YouTube时长 Podcast时长 总时长
戏剧 4338.2 0 4338.2
阅读 0 1110.2 1110.2
新闻 0 868 868
访谈 324.2 614 938.2
纪录片 386.7 90.5 477.2
有声书 0 250.9 250.9

训练子集划分

子集名称 置信度范围 时长(小时)
L 0.95-1.0 10005
M 1.0 1000
S 1.0 100

🔧 工具包集成方案

支持的主流框架

项目提供了三种主流语音识别工具包的完整集成方案:

  1. WeNet工具包 - toolkits/wenet/

    • 端到端语音识别框架
    • 配置文件:conf/train_conformer.yaml
  2. ESPNet工具包 - toolkits/espnet/

    • 支持多种网络结构
    • 训练配置:conf/train_asr.yaml
  3. Kaldi工具包 - toolkits/kaldi/

    • 传统语音识别工具链
    • 包含RNNLM语言模型训练

评估数据集

评估集 时长 数据来源 特点描述
DEV 20 互联网 训练过程中的交叉验证
TEST_NET 23 互联网 匹配测试场景
TEST_MEETING 15 真实会议 远场、对话、自发性语音

⚠️ 重要注意事项

版本兼容性

  • 确保使用openssl 1.1.1或更高版本
  • Python环境建议使用3.7或更高版本
  • 下载过程中保持网络稳定

常见问题解决

  • 下载中断:脚本支持断点续传
  • 密码错误:检查SAFEBOX/password文件格式
  • 存储空间不足:确保有足够的磁盘空间

🚀 性能基准参考

根据项目提供的基准测试结果,各工具包在主要评估集上的表现:

工具包 DEV集 TEST_NET TEST_MEETING AIShell-1
Kaldi 9.07 12.83 24.72 5.41
ESPNet 9.70 8.90 15.90 3.90
WeNet 8.88 9.70 15.59 4.61

通过本指南,您可以快速上手使用WenetSpeech数据集,为中文语音识别研究和应用提供强有力的数据支持。

【免费下载链接】WenetSpeech A 10000+ hours dataset for Chinese speech recognition 【免费下载链接】WenetSpeech 项目地址: https://gitcode.com/gh_mirrors/we/WenetSpeech

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐