声音克隆快速入门:Qwen3-TTS+ComfyUI实战教程
本文介绍了如何在星图GPU平台上自动化部署【声音克隆】Qwen3-TTS-12Hz-1.7B-Base镜像,快速搭建AI语音克隆环境。用户通过该平台可便捷地利用此镜像,仅需一段简短录音即可克隆人声,并应用于有声读物制作、视频配音等场景,极大简化了技术部署流程。
声音克隆快速入门:Qwen3-TTS+ComfyUI实战教程
1. 引言
你有没有想过,用一段不到10秒钟的录音,就能让AI学会任何人的声音,然后用这个声音说出任何你想说的话?这听起来像是科幻电影里的情节,但现在,通过Qwen3-TTS和ComfyUI,你完全可以在自己的电脑上实现它。
想象一下,你可以用自己录制的几句话,生成一个“数字声音分身”,让它帮你朗读文章、制作有声书,甚至为你的视频配音。或者,你可以克隆一个你喜欢的角色声音,用它来创作有趣的对话内容。整个过程不需要你懂编程,也不需要复杂的命令行操作,只需要在一个可视化的界面里拖拖拽拽就能完成。
这篇文章就是为你准备的。我会用最直白的方式,带你从零开始,一步步搭建一个属于自己的声音克隆工作流。无论你是想做内容创作、游戏开发,还是单纯想体验一下AI语音技术的魅力,跟着这篇教程走,你都能在半小时内听到第一个由AI克隆出来的、属于你自己的声音。
2. 准备工作:环境与工具
在开始动手之前,我们需要确保电脑环境已经就绪。别担心,步骤很简单,跟着做就行。
2.1 检查你的电脑配置
首先,看看你的电脑能不能跑得动这个工具。主要看三点:
- 显卡:最好有一块NVIDIA的独立显卡,显存有8GB或以上(比如RTX 3060、4060这些型号)。这是为了加速计算,让生成声音的速度更快。如果没有独立显卡,用CPU也能跑,只是会慢一些。
- 内存:电脑的内存(RAM)建议有16GB或更多。8GB也能用,但处理大一点的任务可能会有点卡。
- 硬盘空间:确保你的硬盘有至少20GB的可用空间,用来存放软件和模型文件。
2.2 安装ComfyUI(我们的操作平台)
ComfyUI是一个图形化的工作流工具,你可以把它想象成一个“乐高积木”平台。我们不需要写代码,只需要把不同的功能“积木”(节点)连接起来,就能完成复杂的AI任务。
安装ComfyUI有两种主流方法,推荐第一种,最简单:
方法一:使用一键安装包(推荐给新手)
这是最省事的方法,适合Windows用户。
- 去ComfyUI的GitHub发布页面(搜索“ComfyUI releases”就能找到)。
- 下载名字里带有“portable”或“standalone”的压缩包(比如
ComfyUI_windows_portable.zip)。 - 解压到你电脑的任意位置(比如D盘根目录)。
- 双击运行文件夹里的
run_nvidia_gpu.bat(如果你用NVIDIA显卡)或run_cpu.bat(如果你用CPU)。 - 等待它自动完成环境配置,完成后会自动在浏览器打开一个地址(通常是
http://127.0.0.1:8188)。这个网页就是你的操作界面了。
方法二:通过Python安装(适合有一定经验的用户)
如果你习惯用命令行,或者用的是Mac或Linux系统,可以用这个方法。
# 1. 克隆ComfyUI的代码仓库
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
# 2. (可选但推荐)创建一个独立的Python环境
python -m venv venv
# Windows系统激活环境
venv\Scripts\activate
# Mac/Linux系统激活环境
source venv/bin/activate
# 3. 安装必要的依赖包
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 如果使用CUDA 11.8
pip install -r requirements.txt
安装完成后,在ComfyUI文件夹里运行 python main.py 来启动它,然后在浏览器访问提示的地址(通常是 http://127.0.0.1:8188)。
2.3 安装Qwen3-TTS插件(核心功能模块)
现在我们的“乐高平台”装好了,接下来要把“声音克隆”这个特殊的积木块装上去。这个积木块就是Qwen3-TTS插件。
- 打开你的ComfyUI文件夹,找到
custom_nodes这个子文件夹。所有第三方插件都放在这里。 - 在这个文件夹里打开命令行(或者直接在这个路径下打开终端/命令提示符)。
- 输入以下命令来下载插件:
git clone https://github.com/HAIGC/Comfyui-HAIGC-QwenTTS.git - 下载完成后,进入新生成的插件文件夹,并安装它需要的额外零件:
cd Comfyui-HAIGC-QwenTTS pip install -r requirements.txt - 关闭并重新启动你的ComfyUI。再次打开后,你就能在节点列表里看到名字里带“Qwen”或“TTS”的新节点了。
3. 获取核心:下载声音模型
插件是“工具”,模型才是“大脑”。我们需要下载Qwen3-TTS的模型文件,它才能学会如何克隆和生成声音。
3.1 找到并下载模型文件
我们需要下载的是 Qwen3-TTS-12Hz-1.7B-Base 这个模型,它专门用于声音克隆。
- 访问模型下载页面。你可以直接在Hugging Face网站搜索“Qwen3-TTS-12Hz-1.7B-Base”。
- 找到模型页面后,你会看到一个大大的“Files and versions”标签页。点击它。
- 你需要下载整个文件夹的内容。通常页面上会有一个“↓”箭头图标,点击它选择“Download all files”或类似选项,将整个模型文件夹下载到你的电脑。
3.2 把模型放到正确的位置
下载的是一个压缩包,解压后你会看到一个包含很多文件的文件夹(名字类似 Qwen3-TTS-12Hz-1.7B-Base)。
现在,你需要在ComfyUI的目录里创建一个专门的文件夹来存放它:
- 进入你的ComfyUI安装目录。
- 找到
models文件夹,进去。 - 在
models文件夹里,新建一个名为qwen-tts的文件夹。 - 最后,把你刚刚解压得到的
Qwen3-TTS-12Hz-1.7B-Base整个文件夹,复制或移动到ComfyUI/models/qwen-tts/这个路径下。
完成后,你的文件夹结构应该看起来像这样:
你的ComfyUI文件夹/
└── models/
└── qwen-tts/
└── Qwen3-TTS-12Hz-1.7B-Base/ (你下载的模型文件夹)
├── config.json
├── pytorch_model.bin
├── tokenizer.json
└── ...(其他文件)
重要提示:一定要确保路径和文件夹名称完全正确,否则ComfyUI会找不到模型。
4. 第一次声音克隆:搭建你的第一个工作流
万事俱备,现在让我们打开ComfyUI,开始搭积木吧!我们的目标是:用一段你的录音,克隆出你的声音,并让它说出一段新的话。
4.1 认识界面与加载模型
- 打开浏览器,访问ComfyUI的地址(通常是
http://127.0.0.1:8188)。你会看到一个中间空白,右侧有节点列表的界面。 - 在右侧节点列表的搜索框里,输入“Qwen”。你应该能看到几个相关的节点。
- 首先,我们需要加载模型。点击并拖动一个名为 “Qwen3 TTS 模型加载” 的节点到中间的工作区。
- 在这个节点上,你需要设置一个参数:
- ckpt_name(模型名称):点击这个下拉菜单。如果你之前把模型放对了位置,这里应该会出现一个选项,比如
qwen-tts/Qwen3-TTS-12Hz-1.7B-Base。选中它。 - 其他参数如“device”(设备)通常保持默认的“cuda”(如果你用GPU)即可。
- ckpt_name(模型名称):点击这个下拉菜单。如果你之前把模型放对了位置,这里应该会出现一个选项,比如
4.2 准备你的“声音样本”
接下来,我们需要告诉AI要克隆谁的声音。
- 在工作区空白处右键,选择“Add Node” -> “audio” -> “Load Audio” 节点。这个节点用来加载你的录音文件。
- 在“Load Audio”节点上,点击输入框旁边的文件夹图标,选择你电脑里的一段清晰的人声录音(支持wav, mp3等格式)。这段录音就是你的“声音样本”,建议时长在5到15秒,内容是一段连贯的、口齿清晰的说话声。
- 再添加一个 “Qwen3 TTS 声音克隆” 节点。这个节点是核心,它负责学习样本并生成新语音。
- 开始连接“积木”:
- 将 “模型加载”节点 的输出端口(通常叫“model”)连接到 “声音克隆”节点 的“model”输入端口。
- 将 “Load Audio”节点 的输出端口(叫“audio”)连接到 “声音克隆”节点 的“reference_audio”输入端口。
- 在“声音克隆”节点上,找到“text”输入框。在这里输入你想让AI用你的声音说出的新文本,比如:“大家好,这是我的AI语音克隆测试,听起来怎么样?”
4.3 听到克隆的声音
最后一步,我们把生成的声音保存下来。
- 添加一个输出节点。右键工作区 -> “Add Node” -> “audio” -> “Save Audio” 节点。
- 将 “声音克隆”节点 的“audio”输出端口,连接到 “Save Audio”节点 的输入端口。
- 在“Save Audio”节点上,你可以设置生成音频的文件名和保存格式。
现在,你的第一个声音克隆工作流就搭建完成了!它看起来应该像一条简单的流水线:加载模型 -> 加载样本 -> 克隆并生成 -> 保存结果。
点击右上角的 “Queue Prompt” 按钮。ComfyUI会开始工作,界面下方会有进度提示。稍等片刻(第一次运行会慢一些,因为要加载模型),处理完成后,你就可以在设定的路径下找到生成的音频文件了。点开听听,是不是你的声音在说那句新的话?
5. 让声音更完美:实用技巧与问题解决
第一次尝试可能效果不错,也可能有些小瑕疵。别急,下面这些技巧能帮你优化效果,并解决可能遇到的问题。
5.1 如何选择更好的“声音样本”?
样本的质量直接决定克隆效果的上限。记住这几个要点:
- 越干净越好:选择在安静环境下用手机或麦克风录制的音频,尽量避免背景噪音、音乐或回声。
- 说话要自然:用你平时正常说话的语气、语速和音量来录。不要刻意表演或改变声音。
- 内容要饱满:样本里最好包含多种发音,比如不同的元音、辅音,以及一些带感情的句子。一段包含陈述、疑问等不同语调的独白是很好的选择。
- 长度要合适:5到15秒是最佳的“黄金长度”。太短(<3秒)特征不够,太长(>30秒)没必要,还可能增加处理时间。
5.2 工作流中常用的调优参数
在“Qwen3 TTS 声音克隆”节点里,你可能会看到一些高级参数,调整它们可以微调生成效果:
- language(语言):如果你的文本和样本都是中文,就选“zh”(中文)。如果文本是英文,就选“en”。也可以选“auto”让模型自动判断。
- max_new_tokens:控制生成语音的最大长度(以token计)。对于一般句子,默认值就够用。如果你要生成很长的段落,可以适当调大。
- temperature:可以理解为“创造力”或“随机性”。值越低(如0.2),生成的声音越稳定、可预测;值越高(如0.8),声音可能更有变化,但也可能不稳定。新手建议从0.6开始尝试。
5.3 遇到问题怎么办?
-
问题:点击“Queue Prompt”后没反应,或者报错找不到模型。
- 检查:确认模型文件夹是否放在了
ComfyUI/models/qwen-tts/路径下,且文件夹名称完全正确。 - 检查:在“模型加载”节点的
ckpt_name下拉菜单里,是否正确选中了你的模型路径。
- 检查:确认模型文件夹是否放在了
-
问题:生成的声音有杂音、断断续续,或者完全不像。
- 检查:你的“声音样本”质量是否过关?换一段更清晰、更干净的录音试试。
- 尝试:在“声音克隆”节点,将
language参数明确设置为你的样本语言(如“zh”),而不是“auto”。
-
问题:处理速度非常慢。
- 确认:你的“模型加载”节点中,
device参数是否设置为“cuda”?这表示使用GPU加速。如果设为“cpu”,速度会慢很多。 - 检查:任务管理器中,你的GPU是否正在被占用(显存使用率很高)?关闭其他可能占用GPU的程序。
- 确认:你的“模型加载”节点中,
6. 玩出花样:探索更多高级玩法
掌握了基础克隆后,你可以尝试Qwen3-TTS更强大的功能。
6.1 一键切换多种声音
你不需要为每个声音都重新搭建工作流。你可以:
- 多准备几个“Load Audio”节点,分别加载不同人的声音样本。
- 添加一个 “Primitive” -> “String” 节点,在里面输入你想说的新文本。
- 使用 “Logic” -> “Switch” 类的节点,来快速切换使用哪个声音样本和哪段文本,然后统一连接到“声音克隆”节点。这样就能用一个工作流批量生成不同人、不同内容的语音了。
6.2 创造全新的“合成声音”
除了克隆,Qwen3-TTS还能“设计”声音。如果你下载了 Qwen3-TTS-12Hz-1.7B-VoiceDesign 模型,可以使用“声音设计”功能。
- 加载VoiceDesign模型。
- 使用 “Qwen3 TTS 声音设计” 节点。
- 在“prompt”输入框里,用文字描述你想要的声音,比如:“一个低沉、温和、带有磁性的中年男性声音,语速平缓。”
- 输入文本,它就会用这个“设计”出来的声音进行合成。你可以不断调整描述词,创造出独一无二的声音角色。
6.3 制作多角色对话小剧场
如果你想用AI声音制作一段对话(比如广播剧、故事),可以尝试:
- 为每个角色(角色A、角色B、旁白)分别准备声音样本或声音设计描述。
- 将多段文本按角色组织好(例如:
[角色A]你好吗?[角色B]我很好,谢谢!)。 - 通过工作流,让Qwen3-TTS依次用不同的声音合成每一句对白,最后再用音频编辑软件或ComfyUI的音频合并节点把它们拼接起来。
7. 总结
恭喜你!走到这里,你已经成功搭建了一个可视化、可操作的声音克隆系统。让我们简单回顾一下核心步骤:
- 准备环境:确保电脑配置达标,安装好ComfyUI这个图形化操作平台。
- 安装插件:把Qwen3-TTS这个“声音克隆”功能模块添加到ComfyUI中。
- 下载模型:获取Qwen3-TTS的核心“大脑”——模型文件,并放到指定位置。
- 搭建工作流:在ComfyUI中通过拖拽节点,连接成“加载模型 -> 输入样本 -> 克隆生成 -> 保存输出”的流水线。
- 优化与探索:通过选择优质样本、调整参数来提升效果,并尝试声音设计、多角色对话等进阶玩法。
整个过程最妙的地方在于可视化和模块化。你不必面对令人头疼的代码和命令行,所有操作都像搭积木一样直观。如果某个环节效果不好,你可以单独调整那个“积木”,而不影响其他部分。
从实际体验来看,Qwen3-TTS的克隆能力确实强大,对于音色、语调的捕捉相当到位。而ComfyUI则让这项技术的门槛降到了最低。无论是想为自己制作个性化的语音助手,还是为视频内容快速生成配音,亦或是进行一些声音艺术创作,这个组合都为你提供了一个强大且易用的起点。
现在,你可以尽情发挥创意了。试着克隆朋友的声音送上一段生日祝福,或者为你创作的故事角色赋予独特的声音。技术的乐趣,就在于动手尝试和创造。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐

所有评论(0)