VoiceCraft革命：零样本语音编辑与文本转语音的AI语音工具完全指南

VoiceCraft是一款突破性的AI语音工具，它基于令牌填充神经编解码器语言模型，在**语音编辑**和**零样本文本转语音（TTS）** 任务上实现了最先进的性能。无论是处理有声读物、网络视频还是播客等野外数据，VoiceCraft都能表现出色。只需几秒钟的参考音频，它就能克隆或编辑未见过的声音，为语音处理带来前所未有的便利和可能性。## 🌟 VoiceCraft的核心优势VoiceC

仲羿禹

358人浏览 · 2026-04-07 11:09:32

仲羿禹 · 2026-04-07 11:09:32 发布

VoiceCraft革命：零样本语音编辑与文本转语音的AI语音工具完全指南

【免费下载链接】VoiceCraft Zero-Shot Speech Editing and Text-to-Speech in the Wild 项目地址: https://gitcode.com/GitHub_Trending/vo/VoiceCraft

VoiceCraft是一款突破性的AI语音工具，它基于令牌填充神经编解码器语言模型，在语音编辑和零样本文本转语音（TTS） 任务上实现了最先进的性能。无论是处理有声读物、网络视频还是播客等野外数据，VoiceCraft都能表现出色。只需几秒钟的参考音频，它就能克隆或编辑未见过的声音，为语音处理带来前所未有的便利和可能性。

🌟 VoiceCraft的核心优势

VoiceCraft作为一款强大的AI语音工具，具有多项令人瞩目的核心优势，使其在众多语音处理工具中脱颖而出。

零样本语音克隆与编辑

只需提供几秒的参考音频，VoiceCraft就能轻松克隆或编辑未听过的声音。这意味着无论你遇到的是何种陌生的声音，都能快速对其进行处理，满足各种语音编辑需求。

出色的语音处理性能

在野外数据，包括有声读物、网络视频和播客等场景中，VoiceCraft都能实现最先进的性能。它能够精准地处理不同类型的语音数据，提供高质量的语音编辑和文本转语音效果。

🚀 快速开始使用VoiceCraft

想要体验VoiceCraft的强大功能，有多种简单便捷的方式可供选择。

使用Google Colab

尝试语音编辑或TTS推理的最简单方法是使用Google Colab。你可以直接在Colab环境中运行相关代码，无需复杂的本地环境配置，快速感受VoiceCraft的魅力。

使用Docker

你也可以使用docker来尝试VoiceCraft的TTS推理功能。这得益于@ubergarm和@jayc88的贡献，让docker使用方式成为可能。

本地安装

如果你希望在本地环境中使用VoiceCraft，可以按照以下步骤进行操作：

首先，克隆仓库：

git clone https://gitcode.com/GitHub_Trending/vo/VoiceCraft
cd VoiceCraft

📚 模型训练与准备

要训练VoiceCraft模型，需要准备以下部分：

模型路径

encodec_model_path可在相关资源获取。该模型在Gigaspeech XL上训练，具有56M参数，4个码本，每个码本有2048个代码。详细信息在我们的论文中有描述。如果在提取过程中遇到OOM问题，尝试减小batch_size和/或max_len。

数据准备

关于manifest，请从指定位置下载train.txt和validation.txt，并将它们放在path/to/store_extracted_codes_and_phonemes/manifest/目录下。如果你想使用我们预训练的VoiceCraft模型，还请从该位置下载vocab.txt，以确保音素到令牌的匹配一致。

🎉 VoiceCraft的发展与更新

VoiceCraft一直在不断发展和完善，为用户带来更好的体验和更强大的功能。

重要更新

04/11/2024：VoiceCraft Gradio现已在HuggingFace Spaces上线！特别感谢@zuev-stepan、@Sewlell、@pgsoar和@Ph0rk0z的重大贡献。
04/05/2024：使用TTS目标在gigaspeech和1/5的librilight上对giga330M进行了微调。权重可在这里获取。确保最大提示+生成长度<=16秒（由于计算资源有限，我们在训练数据中不得不删除超过16秒的语音）。更强大的模型即将推出，敬请期待！
03/28/2024：giga330M和giga830M的模型权重已在HuggingFace🤗上线！可在此处获取。

无论是语音编辑爱好者、内容创作者还是相关领域的专业人士，VoiceCraft都能为你提供强大的支持，让语音处理变得更加简单、高效和富有创意。快来尝试这款革命性的AI语音工具，开启你的语音处理新体验吧！

【免费下载链接】VoiceCraft Zero-Shot Speech Editing and Text-to-Speech in the Wild 项目地址: https://gitcode.com/GitHub_Trending/vo/VoiceCraft

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

从 curl 通到项目跑通：DeepSeek API 接入的 5 个坑

AI Agent技术社区

DeepSeek总结的展望 Postgres 19：查询提示

文章摘要： Postgres 19 将引入查询提示功能，通过新增的 pg_plan_advice 和 pg_stash_advice 模块实现。这一功能结束了 Postgres 社区长期以来的争论，为 DBA 提供了优化查询的灵活工具。pg_plan_advice 允许通过 GUC 或独立存储区设置建议，约束而非替代规划器的决策，确保错误建议能优雅降级。pg_stash_advice 则支持将建议

AI Agent技术社区

DeepSeek总结的使用 Docker 对 PostgreSQL 进行 Beta 测试

本文介绍了如何使用Docker容器测试PostgreSQL 19 Beta 1版本。作者详细说明了通过Docker构建预发布镜像的步骤，包括获取适合操作系统的Docker版本和使用docker buildx命令构建特定版本。文中演示了启动容器、连接数据库以及测试PostgreSQL 19的新功能，如pg_stat_lock视图、pg_plan_advice扩展和pg_stat_statements