VoiceCraft革命:零样本语音编辑与文本转语音的AI语音工具完全指南
VoiceCraft是一款突破性的AI语音工具,它基于令牌填充神经编解码器语言模型,在**语音编辑**和**零样本文本转语音(TTS)** 任务上实现了最先进的性能。无论是处理有声读物、网络视频还是播客等野外数据,VoiceCraft都能表现出色。只需几秒钟的参考音频,它就能克隆或编辑未见过的声音,为语音处理带来前所未有的便利和可能性。## 🌟 VoiceCraft的核心优势VoiceC
VoiceCraft革命:零样本语音编辑与文本转语音的AI语音工具完全指南
VoiceCraft是一款突破性的AI语音工具,它基于令牌填充神经编解码器语言模型,在语音编辑和零样本文本转语音(TTS) 任务上实现了最先进的性能。无论是处理有声读物、网络视频还是播客等野外数据,VoiceCraft都能表现出色。只需几秒钟的参考音频,它就能克隆或编辑未见过的声音,为语音处理带来前所未有的便利和可能性。
🌟 VoiceCraft的核心优势
VoiceCraft作为一款强大的AI语音工具,具有多项令人瞩目的核心优势,使其在众多语音处理工具中脱颖而出。
零样本语音克隆与编辑
只需提供几秒的参考音频,VoiceCraft就能轻松克隆或编辑未听过的声音。这意味着无论你遇到的是何种陌生的声音,都能快速对其进行处理,满足各种语音编辑需求。
出色的语音处理性能
在野外数据,包括有声读物、网络视频和播客等场景中,VoiceCraft都能实现最先进的性能。它能够精准地处理不同类型的语音数据,提供高质量的语音编辑和文本转语音效果。
🚀 快速开始使用VoiceCraft
想要体验VoiceCraft的强大功能,有多种简单便捷的方式可供选择。
使用Google Colab
尝试语音编辑或TTS推理的最简单方法是使用Google Colab。你可以直接在Colab环境中运行相关代码,无需复杂的本地环境配置,快速感受VoiceCraft的魅力。
使用Docker
你也可以使用docker来尝试VoiceCraft的TTS推理功能。这得益于@ubergarm和@jayc88的贡献,让docker使用方式成为可能。
本地安装
如果你希望在本地环境中使用VoiceCraft,可以按照以下步骤进行操作:
首先,克隆仓库:
git clone https://gitcode.com/GitHub_Trending/vo/VoiceCraft
cd VoiceCraft
📚 模型训练与准备
要训练VoiceCraft模型,需要准备以下部分:
模型路径
encodec_model_path可在相关资源获取。该模型在Gigaspeech XL上训练,具有56M参数,4个码本,每个码本有2048个代码。详细信息在我们的论文中有描述。如果在提取过程中遇到OOM问题,尝试减小batch_size和/或max_len。
数据准备
关于manifest,请从指定位置下载train.txt和validation.txt,并将它们放在path/to/store_extracted_codes_and_phonemes/manifest/目录下。如果你想使用我们预训练的VoiceCraft模型,还请从该位置下载vocab.txt,以确保音素到令牌的匹配一致。
🎉 VoiceCraft的发展与更新
VoiceCraft一直在不断发展和完善,为用户带来更好的体验和更强大的功能。
重要更新
- 04/11/2024:VoiceCraft Gradio现已在HuggingFace Spaces上线!特别感谢@zuev-stepan、@Sewlell、@pgsoar和@Ph0rk0z的重大贡献。
- 04/05/2024:使用TTS目标在gigaspeech和1/5的librilight上对giga330M进行了微调。权重可在这里获取。确保最大提示+生成长度<=16秒(由于计算资源有限,我们在训练数据中不得不删除超过16秒的语音)。更强大的模型即将推出,敬请期待!
- 03/28/2024:giga330M和giga830M的模型权重已在HuggingFace🤗上线!可在此处获取。
无论是语音编辑爱好者、内容创作者还是相关领域的专业人士,VoiceCraft都能为你提供强大的支持,让语音处理变得更加简单、高效和富有创意。快来尝试这款革命性的AI语音工具,开启你的语音处理新体验吧!
更多推荐

所有评论(0)