声音克隆快速入门：Qwen3-TTS+ComfyUI实战教程

本文介绍了如何在星图GPU平台上自动化部署【声音克隆】Qwen3-TTS-12Hz-1.7B-Base镜像，快速搭建AI语音克隆环境。用户通过该平台可便捷地利用此镜像，仅需一段简短录音即可克隆人声，并应用于有声读物制作、视频配音等场景，极大简化了技术部署流程。

想法臃肿

415人浏览 · 2026-03-09 00:18:22

想法臃肿 · 2026-03-09 00:18:22 发布

声音克隆快速入门：Qwen3-TTS+ComfyUI实战教程

1. 引言

你有没有想过，用一段不到10秒钟的录音，就能让AI学会任何人的声音，然后用这个声音说出任何你想说的话？这听起来像是科幻电影里的情节，但现在，通过Qwen3-TTS和ComfyUI，你完全可以在自己的电脑上实现它。

想象一下，你可以用自己录制的几句话，生成一个“数字声音分身”，让它帮你朗读文章、制作有声书，甚至为你的视频配音。或者，你可以克隆一个你喜欢的角色声音，用它来创作有趣的对话内容。整个过程不需要你懂编程，也不需要复杂的命令行操作，只需要在一个可视化的界面里拖拖拽拽就能完成。

这篇文章就是为你准备的。我会用最直白的方式，带你从零开始，一步步搭建一个属于自己的声音克隆工作流。无论你是想做内容创作、游戏开发，还是单纯想体验一下AI语音技术的魅力，跟着这篇教程走，你都能在半小时内听到第一个由AI克隆出来的、属于你自己的声音。

2. 准备工作：环境与工具

在开始动手之前，我们需要确保电脑环境已经就绪。别担心，步骤很简单，跟着做就行。

2.1 检查你的电脑配置

首先，看看你的电脑能不能跑得动这个工具。主要看三点：

显卡：最好有一块NVIDIA的独立显卡，显存有8GB或以上（比如RTX 3060、4060这些型号）。这是为了加速计算，让生成声音的速度更快。如果没有独立显卡，用CPU也能跑，只是会慢一些。
内存：电脑的内存（RAM）建议有16GB或更多。8GB也能用，但处理大一点的任务可能会有点卡。
硬盘空间：确保你的硬盘有至少20GB的可用空间，用来存放软件和模型文件。

2.2 安装ComfyUI（我们的操作平台）

ComfyUI是一个图形化的工作流工具，你可以把它想象成一个“乐高积木”平台。我们不需要写代码，只需要把不同的功能“积木”（节点）连接起来，就能完成复杂的AI任务。

安装ComfyUI有两种主流方法，推荐第一种，最简单：

方法一：使用一键安装包（推荐给新手）

这是最省事的方法，适合Windows用户。

去ComfyUI的GitHub发布页面（搜索“ComfyUI releases”就能找到）。
下载名字里带有“portable”或“standalone”的压缩包（比如 ComfyUI_windows_portable.zip）。
解压到你电脑的任意位置（比如D盘根目录）。
双击运行文件夹里的 run_nvidia_gpu.bat（如果你用NVIDIA显卡）或 run_cpu.bat（如果你用CPU）。
等待它自动完成环境配置，完成后会自动在浏览器打开一个地址（通常是 http://127.0.0.1:8188）。这个网页就是你的操作界面了。

方法二：通过Python安装（适合有一定经验的用户）

如果你习惯用命令行，或者用的是Mac或Linux系统，可以用这个方法。

# 1. 克隆ComfyUI的代码仓库
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI

# 2. （可选但推荐）创建一个独立的Python环境
python -m venv venv
# Windows系统激活环境
venv\Scripts\activate
# Mac/Linux系统激活环境
source venv/bin/activate

# 3. 安装必要的依赖包
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118  # 如果使用CUDA 11.8
pip install -r requirements.txt

安装完成后，在ComfyUI文件夹里运行 python main.py 来启动它，然后在浏览器访问提示的地址（通常是 http://127.0.0.1:8188）。

2.3 安装Qwen3-TTS插件（核心功能模块）

现在我们的“乐高平台”装好了，接下来要把“声音克隆”这个特殊的积木块装上去。这个积木块就是Qwen3-TTS插件。

打开你的ComfyUI文件夹，找到 custom_nodes 这个子文件夹。所有第三方插件都放在这里。
在这个文件夹里打开命令行（或者直接在这个路径下打开终端/命令提示符）。

输入以下命令来下载插件：

git clone https://github.com/HAIGC/Comfyui-HAIGC-QwenTTS.git

下载完成后，进入新生成的插件文件夹，并安装它需要的额外零件：
```
cd Comfyui-HAIGC-QwenTTS
pip install -r requirements.txt
```
关闭并重新启动你的ComfyUI。再次打开后，你就能在节点列表里看到名字里带“Qwen”或“TTS”的新节点了。

3. 获取核心：下载声音模型

插件是“工具”，模型才是“大脑”。我们需要下载Qwen3-TTS的模型文件，它才能学会如何克隆和生成声音。

3.1 找到并下载模型文件

我们需要下载的是 Qwen3-TTS-12Hz-1.7B-Base 这个模型，它专门用于声音克隆。

访问模型下载页面。你可以直接在Hugging Face网站搜索“Qwen3-TTS-12Hz-1.7B-Base”。
找到模型页面后，你会看到一个大大的“Files and versions”标签页。点击它。
你需要下载整个文件夹的内容。通常页面上会有一个“↓”箭头图标，点击它选择“Download all files”或类似选项，将整个模型文件夹下载到你的电脑。

3.2 把模型放到正确的位置

下载的是一个压缩包，解压后你会看到一个包含很多文件的文件夹（名字类似 Qwen3-TTS-12Hz-1.7B-Base）。

现在，你需要在ComfyUI的目录里创建一个专门的文件夹来存放它：

进入你的ComfyUI安装目录。
找到 models 文件夹，进去。
在 models 文件夹里，新建一个名为 qwen-tts 的文件夹。
最后，把你刚刚解压得到的 Qwen3-TTS-12Hz-1.7B-Base 整个文件夹，复制或移动到 ComfyUI/models/qwen-tts/ 这个路径下。

完成后，你的文件夹结构应该看起来像这样：

你的ComfyUI文件夹/
└── models/
    └── qwen-tts/
        └── Qwen3-TTS-12Hz-1.7B-Base/  （你下载的模型文件夹）
            ├── config.json
            ├── pytorch_model.bin
            ├── tokenizer.json
            └── ...（其他文件）

重要提示：一定要确保路径和文件夹名称完全正确，否则ComfyUI会找不到模型。

4. 第一次声音克隆：搭建你的第一个工作流

万事俱备，现在让我们打开ComfyUI，开始搭积木吧！我们的目标是：用一段你的录音，克隆出你的声音，并让它说出一段新的话。

4.1 认识界面与加载模型

打开浏览器，访问ComfyUI的地址（通常是 http://127.0.0.1:8188）。你会看到一个中间空白，右侧有节点列表的界面。
在右侧节点列表的搜索框里，输入“Qwen”。你应该能看到几个相关的节点。
首先，我们需要加载模型。点击并拖动一个名为 “Qwen3 TTS 模型加载” 的节点到中间的工作区。
在这个节点上，你需要设置一个参数：
- ckpt_name（模型名称）：点击这个下拉菜单。如果你之前把模型放对了位置，这里应该会出现一个选项，比如 qwen-tts/Qwen3-TTS-12Hz-1.7B-Base。选中它。
- 其他参数如“device”（设备）通常保持默认的“cuda”（如果你用GPU）即可。

4.2 准备你的“声音样本”

接下来，我们需要告诉AI要克隆谁的声音。

在工作区空白处右键，选择“Add Node” -> “audio” -> “Load Audio” 节点。这个节点用来加载你的录音文件。
在“Load Audio”节点上，点击输入框旁边的文件夹图标，选择你电脑里的一段清晰的人声录音（支持wav, mp3等格式）。这段录音就是你的“声音样本”，建议时长在5到15秒，内容是一段连贯的、口齿清晰的说话声。
再添加一个 “Qwen3 TTS 声音克隆” 节点。这个节点是核心，它负责学习样本并生成新语音。
开始连接“积木”：
- 将 “模型加载”节点 的输出端口（通常叫“model”）连接到 “声音克隆”节点 的“model”输入端口。
- 将 “Load Audio”节点 的输出端口（叫“audio”）连接到 “声音克隆”节点 的“reference_audio”输入端口。
在“声音克隆”节点上，找到“text”输入框。在这里输入你想让AI用你的声音说出的新文本，比如：“大家好，这是我的AI语音克隆测试，听起来怎么样？”

4.3 听到克隆的声音

最后一步，我们把生成的声音保存下来。

添加一个输出节点。右键工作区 -> “Add Node” -> “audio” -> “Save Audio” 节点。
将 “声音克隆”节点 的“audio”输出端口，连接到 “Save Audio”节点 的输入端口。
在“Save Audio”节点上，你可以设置生成音频的文件名和保存格式。

现在，你的第一个声音克隆工作流就搭建完成了！它看起来应该像一条简单的流水线：加载模型 -> 加载样本 -> 克隆并生成 -> 保存结果。

点击右上角的 “Queue Prompt” 按钮。ComfyUI会开始工作，界面下方会有进度提示。稍等片刻（第一次运行会慢一些，因为要加载模型），处理完成后，你就可以在设定的路径下找到生成的音频文件了。点开听听，是不是你的声音在说那句新的话？

5. 让声音更完美：实用技巧与问题解决

第一次尝试可能效果不错，也可能有些小瑕疵。别急，下面这些技巧能帮你优化效果，并解决可能遇到的问题。

5.1 如何选择更好的“声音样本”？

样本的质量直接决定克隆效果的上限。记住这几个要点：

越干净越好：选择在安静环境下用手机或麦克风录制的音频，尽量避免背景噪音、音乐或回声。
说话要自然：用你平时正常说话的语气、语速和音量来录。不要刻意表演或改变声音。
内容要饱满：样本里最好包含多种发音，比如不同的元音、辅音，以及一些带感情的句子。一段包含陈述、疑问等不同语调的独白是很好的选择。
长度要合适：5到15秒是最佳的“黄金长度”。太短（<3秒）特征不够，太长（>30秒）没必要，还可能增加处理时间。

5.2 工作流中常用的调优参数

在“Qwen3 TTS 声音克隆”节点里，你可能会看到一些高级参数，调整它们可以微调生成效果：

language（语言）：如果你的文本和样本都是中文，就选“zh”（中文）。如果文本是英文，就选“en”。也可以选“auto”让模型自动判断。
max_new_tokens：控制生成语音的最大长度（以token计）。对于一般句子，默认值就够用。如果你要生成很长的段落，可以适当调大。
temperature：可以理解为“创造力”或“随机性”。值越低（如0.2），生成的声音越稳定、可预测；值越高（如0.8），声音可能更有变化，但也可能不稳定。新手建议从0.6开始尝试。

5.3 遇到问题怎么办？

问题：点击“Queue Prompt”后没反应，或者报错找不到模型。
- 检查：确认模型文件夹是否放在了 ComfyUI/models/qwen-tts/ 路径下，且文件夹名称完全正确。
- 检查：在“模型加载”节点的 ckpt_name 下拉菜单里，是否正确选中了你的模型路径。
问题：生成的声音有杂音、断断续续，或者完全不像。
- 检查：你的“声音样本”质量是否过关？换一段更清晰、更干净的录音试试。
- 尝试：在“声音克隆”节点，将 language 参数明确设置为你的样本语言（如“zh”），而不是“auto”。
问题：处理速度非常慢。
- 确认：你的“模型加载”节点中，device 参数是否设置为“cuda”？这表示使用GPU加速。如果设为“cpu”，速度会慢很多。
- 检查：任务管理器中，你的GPU是否正在被占用（显存使用率很高）？关闭其他可能占用GPU的程序。

6. 玩出花样：探索更多高级玩法

掌握了基础克隆后，你可以尝试Qwen3-TTS更强大的功能。

6.1 一键切换多种声音

你不需要为每个声音都重新搭建工作流。你可以：

多准备几个“Load Audio”节点，分别加载不同人的声音样本。
添加一个 “Primitive” -> “String” 节点，在里面输入你想说的新文本。
使用 “Logic” -> “Switch” 类的节点，来快速切换使用哪个声音样本和哪段文本，然后统一连接到“声音克隆”节点。这样就能用一个工作流批量生成不同人、不同内容的语音了。

6.2 创造全新的“合成声音”

除了克隆，Qwen3-TTS还能“设计”声音。如果你下载了 Qwen3-TTS-12Hz-1.7B-VoiceDesign 模型，可以使用“声音设计”功能。

加载VoiceDesign模型。
使用 “Qwen3 TTS 声音设计” 节点。
在“prompt”输入框里，用文字描述你想要的声音，比如：“一个低沉、温和、带有磁性的中年男性声音，语速平缓。”
输入文本，它就会用这个“设计”出来的声音进行合成。你可以不断调整描述词，创造出独一无二的声音角色。

6.3 制作多角色对话小剧场

如果你想用AI声音制作一段对话（比如广播剧、故事），可以尝试：

为每个角色（角色A、角色B、旁白）分别准备声音样本或声音设计描述。
将多段文本按角色组织好（例如：[角色A]你好吗？[角色B]我很好，谢谢！）。
通过工作流，让Qwen3-TTS依次用不同的声音合成每一句对白，最后再用音频编辑软件或ComfyUI的音频合并节点把它们拼接起来。

7. 总结

恭喜你！走到这里，你已经成功搭建了一个可视化、可操作的声音克隆系统。让我们简单回顾一下核心步骤：

准备环境：确保电脑配置达标，安装好ComfyUI这个图形化操作平台。
安装插件：把Qwen3-TTS这个“声音克隆”功能模块添加到ComfyUI中。
下载模型：获取Qwen3-TTS的核心“大脑”——模型文件，并放到指定位置。
搭建工作流：在ComfyUI中通过拖拽节点，连接成“加载模型 -> 输入样本 -> 克隆生成 -> 保存输出”的流水线。
优化与探索：通过选择优质样本、调整参数来提升效果，并尝试声音设计、多角色对话等进阶玩法。

整个过程最妙的地方在于可视化和模块化。你不必面对令人头疼的代码和命令行，所有操作都像搭积木一样直观。如果某个环节效果不好，你可以单独调整那个“积木”，而不影响其他部分。

从实际体验来看，Qwen3-TTS的克隆能力确实强大，对于音色、语调的捕捉相当到位。而ComfyUI则让这项技术的门槛降到了最低。无论是想为自己制作个性化的语音助手，还是为视频内容快速生成配音，亦或是进行一些声音艺术创作，这个组合都为你提供了一个强大且易用的起点。

现在，你可以尽情发挥创意了。试着克隆朋友的声音送上一段生日祝福，或者为你创作的故事角色赋予独特的声音。技术的乐趣，就在于动手尝试和创造。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

让 Codex 桌面版拥抱 DeepSeek-V4：协议桥接与模型网关接入实践

4SAPI 提供了一套标准的 Chat Completions 接口，完全兼容 DeepSeek V4 Pro 等模型，使用时只需将 base URL 和密钥替换为平台分配的值即可。这样一来，既保留了桥接层的协议转换能力，又获得了网关带来的额外弹性。这样的模型网关，则进一步提升了链路的稳定性和密钥管理的便捷度，尤其适合团队或对服务可用性有更高要求的场景。│Codex 桌面版│ ──────────

AI Agent技术社区

别再迷信“突破限制”：Gemini 3.5-flash 边界测试实战复盘

AI Agent技术社区

想要转型AI Agent开发？现在开始学，还不晚

用 @tool 装饰器定义工具@tool"""搜索互联网获取实时信息。当需要最新数据时使用此工具。"""# 实际接入 Tavily / Serper 等搜索 APIreturnf"搜索结果：关于 {query} 的最新信息..."@tool"""计算数学表达式，如 '2 + 3 * 4'"""# 绑定工具到模型# 模型会自动决定是否调用工具response = llm_with_tools.inv