人声分离说话者分离

人声分离算法笔记

AI视觉网奇

514人浏览 · 2025-08-18 01:01:12

AI视觉网奇 · 2025-08-18 01:01:12 发布

Spleeter (⭐ 26.7k+) 2023

GitHub: https://github.com/deezer/spleeter
简介: 由音乐流媒体服务 Deezer 开发，是目前最流行、最易用的音乐源分离工具之一。主要设计用于分离音乐中的不同音轨（人声、鼓、贝斯、其他）。提取 vocals 轨道即可得到人声。
💪 优点: 安装简单（pip install spleeter），命令行/Python 库调用方便，提供多种高质量预训练模型（2/4/5 stems），效果稳定。
🤔 注意: 主要基于音乐数据训练，对纯粹的说话声可能不是最优，分离结果可能存在微小的“串音”（bleeding）。
适合: 快速上手，通用音乐/人声分离场景。

Ultimate Vocal Remover GUI (⭐ 20.3k+)

GitHub: https://github.com/Anjok07/ultimatevocalremovergui
简介: 这是一个非常受欢迎的图形用户界面（GUI）工具，它集成了多种业界顶尖的音频分离模型（如 MDX-Net, Demucs, VR Architecture 等）。
💪 优点: 无需编码！用户友好的界面，可以选择不同的后端模型进行尝试，参数调整直观，效果通常非常好。支持多种模型集成和模型融合（Ensemble）。
🤔 注意: 本身是一个界面和模型管理器，需要下载对应的模型文件。依赖底层模型的效果。
适合: 不想写代码、希望通过图形界面尝试不同顶尖模型并调优的用户。
pyvideotrans (⭐ 12.5k+)

GitHub: https://github.com/jianchang512/pyvideotrans
简介: 主要目标是视频翻译和字幕生成，但其流程中包含了人声/背景声分离的功能（通常调用 vocal-remover 或类似库），以便单独处理人声进行识别和翻译。
💪 优点: 提供了一个集成化的视频处理流程，包含了分离步骤。对于需要处理视频源并提取人声进行后续操作（如 ASR）的场景很方便。
🤔 注意: 语音分离是其功能的一部分，而非核心。分离效果依赖其内部使用的具体分离模型。
适合: 需要处理视频，并顺带分离人声用于转录/翻译等目的。
FunASR (⭐ 9.8k+)

GitHub: https://github.com/modelscope/FunASR

简介: 阿里达摩院 ModelScope 社区推出的工业级语音识别工具链。虽然核心是 ASR，但也包含语音增强、分离等前端处理能力，可以用来提升嘈杂环境下的语音质量。
💪 优点: 集成度高，与 ModelScope 生态结合紧密，提供了工业级的 ASR 相关模型和方案，其语音增强模块可用于去噪/分离。
🤔 注意: 主要设计目标是服务于 ASR，分离功能可能作为预处理步骤存在，需要探索其具体接口和模型。
适合: 需要结合语音识别、语音增强等多种功能的开发者，希望使用工业级方案。
SpeechBrain (⭐ 9.7k+)

GitHub: https://github.com/speechbrain/speechbrain

简介: 一个基于 PyTorch 的一体化、灵活、用户友好的语音处理工具包。涵盖 ASR, TTS, 说话人识别, 语音增强/分离等众多任务。
💪 优点: 功能全面，模块化设计，提供了多种语音增强和分离的 baseline 和 SOTA 模型实现。非常适合研究和构建复杂的语音系统。
🤔 注意: 功能强大但也意味着学习曲线相对陡峭，需要理解其配置和使用方式。
适合: 研究人员，需要在一个框架内实现多种语音处理任务的开发者。
Demucs (⭐ 8.8k+)
————————————————
版权声明：本文为CSDN博主「小丁学Java」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/m0_65152767/article/details/147311444

清华大学 300星

https://github.com/JusperLee/TIGER

在线免费，没有开源代码：

AI Fooler - 免费在线AI人声伴奏分离工具

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

后端接入 AI Agent：Tool Calling 网关、幂等与审计日志实战

AI Agent技术社区

AI导出鸭惊了！DeepSeek代码手机导出保姆级实操，不看亏一套海景房

AI Agent技术社区

OpenClaw vs Hermes Agent：企业级执行 vs 自我进化，一文读懂怎么选！

AI Agent 开源双子星深度对比：OpenClaw（GitHub 26.4w⭐）主打工程化落地，四层记忆+20+渠道+13,700+技能，适合企业自动化；Hermes Agent（53天10w⭐）主打闭环学习，四级记忆+自动技能进化+3,200+社区技能，越用越聪明。两者可互补组合：OpenClaw 做稳定执行引擎，Hermes 做持续学习大脑。短期落地选 OpenClaw，长期陪伴选 Her