小白也能玩转声音克隆：Qwen3-TTS在ComfyUI中的实战应用

本文介绍了如何在星图GPU平台上自动化部署【声音克隆】Qwen3-TTS-12Hz-1.7B-Base镜像，快速搭建AI语音克隆环境。用户通过该平台可轻松实现声音克隆，例如为短视频、有声读物或个性化语音助手生成逼真的定制化语音，极大降低了AI语音合成的应用门槛。

e名牙医

296人浏览 · 2026-03-13 00:19:54

e名牙医 · 2026-03-13 00:19:54 发布

小白也能玩转声音克隆：Qwen3-TTS在ComfyUI中的实战应用

1. 引言：让AI学会“说话”

你有没有想过，只用一段几秒钟的录音，就能让AI模仿任何人的声音，帮你朗读文章、配音视频，甚至创作有声故事？这听起来像是科幻电影里的情节，但现在，通过Qwen3-TTS和ComfyUI这对组合，你完全可以在自己的电脑上轻松实现。

Qwen3-TTS是一个强大的语音合成模型，它能听懂10种主要语言，还能模仿各种声音风格。而ComfyUI，则是一个可视化的AI工作流工具，它把复杂的代码操作变成了简单的“拖拖拽拽”。把它们俩结合起来，声音克隆这件事，就变得像搭积木一样简单。

这篇文章就是为你准备的，无论你是完全不懂代码的小白，还是想找更简单工具的内容创作者，我都会带你一步步走完整个过程。从怎么把工具装好，到怎么搭建第一个工作流，再到怎么让生成的声音更好听，所有细节都会讲清楚。我们的目标很简单：让你看完就能动手，做出属于自己的第一个AI语音。

2. 准备工作：搭建你的声音实验室

在开始“克隆”声音之前，我们需要先把“实验室”搭建好。别担心，整个过程就像安装一个普通软件，跟着步骤来就行。

2.1 检查你的“装备”

首先，确保你的电脑能满足基本要求，这样运行起来会更顺畅：

操作系统：Windows 10或11，或者主流的Linux发行版、macOS都可以。
显卡：最好有一块NVIDIA的独立显卡（比如RTX 3060或更高型号），显存有8GB或以上。有显卡的话，生成速度会快很多。如果没有独立显卡，用CPU也能跑，只是需要多等一会儿。
内存：建议有16GB或更多的内存。
硬盘空间：至少预留20GB的可用空间，用来存放模型和生成的文件。

2.2 获取并启动ComfyUI

ComfyUI是我们的操作平台，安装它有两种主流方法，推荐第一种，最省事。

方法一：使用预打包版本（推荐给新手） 这是最简单的方法，不需要自己配置Python环境。

访问ComfyUI的GitHub发布页面。
找到最新版本的“Portable”或“Standalone”安装包（通常是.zip或.7z文件）并下载。
解压下载的文件到你电脑上的任意位置（比如D:\ComfyUI）。
进入解压后的文件夹，直接双击运行 run_nvidia_gpu.bat（如果你是NVIDIA显卡）或者 run_cpu.bat（如果你只有CPU）。
等待命令行窗口运行完毕，它会自动打开一个浏览器页面，地址通常是 http://127.0.0.1:8188。看到这个界面，就说明ComfyUI启动成功了。

方法二：通过Git和Python安装（适合有一定经验的用户） 如果你习惯使用命令行，可以这样安装：

# 1. 克隆ComfyUI的代码仓库
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI

# 2. （可选但推荐）创建一个Python虚拟环境来隔离依赖
python -m venv venv
# 激活虚拟环境
# 在Windows上运行：
venv\Scripts\activate
# 在Linux或macOS上运行：
source venv/bin/activate

# 3. 安装必要的依赖包
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118  # 如果你有NVIDIA显卡
# 或者使用CPU版本: pip install torch torchvision torchaudio
pip install -r requirements.txt

安装完成后，在ComfyUI文件夹下运行 python main.py 来启动它。

2.3 安装Qwen3-TTS插件

ComfyUI本身没有声音克隆功能，我们需要安装一个专门的插件来添加这个能力。

打开你的ComfyUI文件夹。
找到并进入 custom_nodes 文件夹。这是所有自定义插件存放的地方。
在这个文件夹里打开命令行（或者Git Bash），输入以下命令来下载插件：
```
git clone https://github.com/HAIGC/Comfyui-HAIGC-QwenTTS.git
```
下载完成后，进入新生成的 Comfyui-HAIGC-QwenTTS 文件夹，安装它需要的额外依赖：
```
pip install -r requirements.txt
```
关闭并重新启动ComfyUI。重启后，你应该能在左侧的节点列表里看到新增的“Qwen3 TTS”相关节点了。

2.4 下载声音模型

插件是“工具”，模型才是“大脑”。我们需要下载Qwen3-TTS的模型文件。

访问模型托管网站（如Hugging Face），找到名为 Qwen3-TTS-12Hz-1.7B-Base 的模型。这个版本在声音克隆的质量和速度上比较均衡，适合我们使用。
下载整个模型文件夹。通常包含 config.json, pytorch_model.bin 等文件。
在ComfyUI文件夹内，找到 models 目录。在里面新建一个文件夹，命名为 qwen-tts。
将你下载的模型文件夹（例如 Qwen3-TTS-12Hz-1.7B-Base）整个复制到 models/qwen-tts/ 路径下。最终，你的目录结构应该看起来像这样：

你的ComfyUI文件夹/
└── models/
    └── qwen-tts/
        └── Qwen3-TTS-12Hz-1.7B-Base/  （你下载的模型文件夹）
            ├── config.json
            ├── pytorch_model.bin
            └── ...（其他文件）

好了，至此所有准备工作都完成了。你的“声音克隆实验室”已经搭建完毕，接下来我们开始动手创造。

3. 第一步：搭建基础声音克隆工作流

现在，我们进入ComfyUI那个看起来有点复杂的界面。别被那些线和框吓到，我们只需要连接几个关键的“积木”，就能让机器运转起来。

3.1 找到并放置核心节点

在ComfyUI界面左侧，有一长串节点类别。找到并点击“Qwen3 TTS”分类，你会看到几个可用的节点。我们首先需要三个：

加载模型：找到名为 “Qwen3 TTS 模型加载” 的节点，把它拖到中间的工作区。
克隆声音：找到名为 “Qwen3 TTS 声音克隆” 的节点，拖到“模型加载”节点的旁边。
保存结果：在左侧搜索“Save Audio”或者“音频保存”，找到一个能保存音频文件的节点（例如 SaveAudio），也拖到工作区。

3.2 连接节点，构建流水线

节点的连接逻辑很简单：上一个节点的输出，连接到下一个节点的输入。

点击 “Qwen3 TTS 模型加载” 节点右侧的彩色圆点（输出端口，通常标着MODEL），拖出一条线，连接到 “Qwen3 TTS 声音克隆” 节点左侧对应的输入端口（通常也标着MODEL）。这就把模型交给了克隆功能。
点击 “Qwen3 TTS 声音克隆” 节点右侧的 AUDIO 输出端口，拖出一条线，连接到 “Save Audio” 节点的 AUDIO 输入端口。这样生成的声音就能被保存下来了。

现在，你的工作流应该看起来像一条简单的链条：加载模型 -> 克隆声音 -> 保存音频。

3.3 配置参数，告诉AI做什么

接下来，我们需要告诉每个节点具体怎么做。

配置模型加载节点：
- 在节点上找到 model_name 或类似的选项。点击它，你应该能看到一个下拉列表，里面包含了你在 models/qwen-tts/ 文件夹里放置的模型名称（例如 Qwen3-TTS-12Hz-1.7B-Base）。选中它。
- device 选项选择 cuda（如果你有NVIDIA显卡）或 cpu。
- dtype 精度可以选择 fp16，这样能在保证质量的同时跑得更快一些。
配置声音克隆节点（这是关键步骤）：
- 参考音频：这个节点需要一个输入端口来接收你的“声音样本”。你需要一个能加载音频文件的节点。在左侧搜索“Load Audio”或“音频”，找到 LoadAudio 节点并拖出来。用它的 AUDIO 输出端口连接到克隆节点的 reference_audio 输入端口。然后在 LoadAudio 节点里，选择你事先准备好的一段清晰人声录音（3-30秒为宜，比如“你好，今天天气真不错”）。
- 输入文本：在克隆节点上找到 text 输入框。在这里写下你想让AI用克隆的声音说的话。比如：“欢迎来到我的频道，今天我们将一起探索声音克隆的奇妙世界。”
- 语言：language 选项可以设置为 auto（自动检测），或者根据你的文本手动选择，比如 zh（中文）或 en（英文）。
配置保存节点：
- 在 Save Audio 节点上，你可以设置生成音频文件的保存名字（如 my_cloned_voice.wav）和保存路径。

3.4 点击生成，聆听奇迹

所有节点连接并配置好后，点击界面右上角的 “Queue Prompt” 按钮。界面下方会显示处理进度。稍等片刻（时间长短取决于你的电脑配置），处理完成后，你就可以去你设置的保存路径下，找到那个新生成的 .wav 音频文件。点开它，听听看——是不是你提供的那个声音，在说你写下的那段话？

恭喜你！你已经成功完成了第一次声音克隆。这个过程的核心就是：提供样本 -> 输入文本 -> 生成语音。虽然界面看起来专业，但操作逻辑非常直观。

4. 进阶玩法：让声音更生动、更有趣

掌握了基础操作后，我们可以玩点更高级的，让生成的声音不再单调。

4.1 扮演不同角色，创作对话

Qwen3-TTS支持多角色对话，这非常适合用来制作简单的广播剧、故事配音，或者给视频中的多个角色配音。

你需要使用另一个节点：“Qwen3 TTS 多角色对话合成”。把它拖到工作区。
同样，需要将模型加载节点的输出连接到这个对话节点的输入。

在这个节点的 text 输入框里，你需要按照特定格式编写剧本。格式是：角色名: 角色要说的话。每一行一个角色的一句台词。

小明: 你好，小红，今天的作业你做完了吗？
小红: 早就做完啦，小明你呢？
旁白: 就这样，两个好朋友开始讨论起明天的计划。

你还需要为每个出现的角色（小明、小红、旁白）准备对应的参考音频，或者使用模型内置的预设声音。在节点上会有配置每个角色使用哪种声音的选项。
连接输出到保存节点，点击生成。你就能得到一个包含多个角色、带有对话感的完整音频了。

4.2 微调声音，控制情感

你可能会发现，第一次生成的声音虽然像，但语气比较平淡。我们可以通过调整参数来让它更有感情。在 “Qwen3 TTS 声音克隆” 节点上，留意这些高级参数（如果节点提供了的话）：

语速：可以调整朗读的快慢。
音调：可以微调声音的高低。
情感：一些高级模型支持通过文本指令来注入情感，比如在输入文本前加上 [高兴地] 或 [悲伤地] 等提示词。你可以查阅Qwen3-TTS的具体文档，看看它支持哪些控制指令。

一个实用技巧：你提供的“参考音频”本身的情感也会被学习。如果你想要一个欢快的声音，最好提供一段说话人情绪欢快的录音作为样本。

4.3 尝试“声音设计”，创造新音色

除了克隆，你还可以“创造”声音。这需要用到Qwen3-TTS的另一个模型：VoiceDesign（声音设计） 模型。

你需要下载 Qwen3-TTS-12Hz-1.7B-VoiceDesign 模型，并像之前一样放在 models/qwen-tts/ 目录下。
在 “Qwen3 TTS 模型加载” 节点里，选择这个新模型。
使用 “Qwen3 TTS 声音设计” 节点（如果插件提供）。在这个节点的 text 输入框里，你可以用自然语言描述你想要的声音，比如：“一个听起来像30岁左右、沉稳温和的男性声音，带有一点南方口音。”
输入你想合成的文本，然后生成。AI就会尝试根据你的描述，合成一个全新的、符合要求的声音，而不是克隆某个特定的人。

5. 常见问题与优化指南

第一次尝试难免会遇到一些小问题，这里总结了一些常见的情况和解决办法。

5.1 问题排查：如果它不工作

问题：模型加载失败，报错找不到文件。
- 检查：确认模型文件是否完整下载，并且放在了正确的路径 ComfyUI/models/qwen-tts/模型文件夹名/ 下。文件夹名字要和你在节点下拉菜单里选择的名字对应。
问题：点击生成后报错，提示显存不足。
- 解决：这是最可能遇到的问题。首先尝试在 “Qwen3 TTS 模型加载” 节点将 dtype 设置为 fp16。如果还不行，可以尝试在ComfyUI的设置里，找到“性能”相关选项，勾选“自动卸载模型”。终极方案是使用更小的模型（如果有0.6B版本）。
问题：生成的声音很奇怪，有杂音或完全不像。
- 检查：你的参考音频质量是关键。确保它是清晰的、没有背景音乐和噪音的纯人声，长度在5到15秒之间。说话人的语气最好平稳自然。

5.2 效果优化：如何让克隆的声音更逼真

样本质量至上：一段好的参考音频是成功的一半。用录音设备在安静环境下录制，说话人吐字清晰，情绪稳定。
文本匹配：尽量让AI合成的文本类型和参考音频的文本类型相似。比如，用新闻播报的音频去克隆，然后让它读新闻稿，效果会比让它读诗歌更好。
参数微调：如果节点提供了 temperature（温度）参数，可以尝试调低它（比如从1.0调到0.7），这会让生成的声音更稳定、更接近样本。top_p 参数也可以适当调低。
后期润色：生成后的 .wav 文件，你可以用任何音频编辑软件（如Audacity，它是免费的）进行简单处理。比如统一音量、裁剪首尾静音、添加轻微的淡入淡出效果，这能让最终成品听起来更专业。

6. 总结

走到这里，你已经从一个对声音克隆感到好奇的小白，变成了一个能在ComfyUI里熟练搭建工作流、生成自定义语音的“玩家”了。我们回顾一下整个旅程：

我们首先准备好了“实验室”，安装了ComfyUI和Qwen3-TTS插件。然后，我们学会了搭建最核心的“三节点”工作流：加载模型、提供声音样本和文本、保存结果。点击一个按钮，克隆就完成了。接着，我们探索了更高级的玩法，比如让AI扮演多个角色对话，甚至通过描述来创造全新的声音。最后，我们还讨论了遇到问题该怎么解决，以及如何让生成的声音效果更好。

整个过程最迷人的地方在于，复杂的AI技术被封装成了直观的视觉操作。你不需要理解模型内部成千上万的参数，只需要关心：我的声音样本是什么？我想让它说什么？这种低门槛的特性，让创意得以快速实现。

你可以用它来做什么呢？给自制的短视频配音，为你的电子书生成有声版，制作个性化的语音提醒，或者只是克隆朋友的声音开个有趣的玩笑……可能性只受你的想象力限制。

技术工具的意义在于释放创造力。现在，工具已经在你手中。不妨就从克隆一段你自己的问候语开始，然后大胆地去尝试各种有趣的应用吧。这个可视化的声音世界，正等着你去探索和创造。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

从Anthropic官方文档看Claude的安全机制：隔离、模型与外部内容的三层防御体系

十二个月前，如果有人提议让Claude拥有足以搞垮Anthropic内部服务的权限，我们一定会断然拒绝。而今天，这种访问级别已经成为常态，Anthropic内部的开发者们正因为这种部署而大幅提升了生产力。这是我读完Anthropic官方工程博客《How we contain Claude across products》（2026年5月25日发布）后的第一感受。当AI Agent的能力越强大，它的