Spleeter (⭐ 26.7k+) 2023

GitHub: https://github.com/deezer/spleeter
简介: 由音乐流媒体服务 Deezer 开发,是目前最流行、最易用的音乐源分离工具之一。主要设计用于分离音乐中的不同音轨(人声、鼓、贝斯、其他)。提取 vocals 轨道即可得到人声。
💪 优点: 安装简单(pip install spleeter),命令行/Python 库调用方便,提供多种高质量预训练模型(2/4/5 stems),效果稳定。
🤔 注意: 主要基于音乐数据训练,对纯粹的说话声可能不是最优,分离结果可能存在微小的“串音”(bleeding)。
适合: 快速上手,通用音乐/人声分离场景。


Ultimate Vocal Remover GUI (⭐ 20.3k+)

GitHub: https://github.com/Anjok07/ultimatevocalremovergui
简介: 这是一个非常受欢迎的图形用户界面(GUI)工具,它集成了多种业界顶尖的音频分离模型(如 MDX-Net, Demucs, VR Architecture 等)。
💪 优点: 无需编码!用户友好的界面,可以选择不同的后端模型进行尝试,参数调整直观,效果通常非常好。支持多种模型集成和模型融合(Ensemble)。
🤔 注意: 本身是一个界面和模型管理器,需要下载对应的模型文件。依赖底层模型的效果。
适合: 不想写代码、希望通过图形界面尝试不同顶尖模型并调优的用户。
pyvideotrans (⭐ 12.5k+)

GitHub: https://github.com/jianchang512/pyvideotrans
简介: 主要目标是视频翻译和字幕生成,但其流程中包含了人声/背景声分离的功能(通常调用 vocal-remover 或类似库),以便单独处理人声进行识别和翻译。
💪 优点: 提供了一个集成化的视频处理流程,包含了分离步骤。对于需要处理视频源并提取人声进行后续操作(如 ASR)的场景很方便。
🤔 注意: 语音分离是其功能的一部分,而非核心。分离效果依赖其内部使用的具体分离模型。
适合: 需要处理视频,并顺带分离人声用于转录/翻译等目的。
FunASR (⭐ 9.8k+)

GitHub: https://github.com/modelscope/FunASR


简介: 阿里达摩院 ModelScope 社区推出的工业级语音识别工具链。虽然核心是 ASR,但也包含语音增强、分离等前端处理能力,可以用来提升嘈杂环境下的语音质量。
💪 优点: 集成度高,与 ModelScope 生态结合紧密,提供了工业级的 ASR 相关模型和方案,其语音增强模块可用于去噪/分离。
🤔 注意: 主要设计目标是服务于 ASR,分离功能可能作为预处理步骤存在,需要探索其具体接口和模型。
适合: 需要结合语音识别、语音增强等多种功能的开发者,希望使用工业级方案。
SpeechBrain (⭐ 9.7k+)

GitHub: https://github.com/speechbrain/speechbrain


简介: 一个基于 PyTorch 的一体化、灵活、用户友好的语音处理工具包。涵盖 ASR, TTS, 说话人识别, 语音增强/分离等众多任务。
💪 优点: 功能全面,模块化设计,提供了多种语音增强和分离的 baseline 和 SOTA 模型实现。非常适合研究和构建复杂的语音系统。
🤔 注意: 功能强大但也意味着学习曲线相对陡峭,需要理解其配置和使用方式。
适合: 研究人员,需要在一个框架内实现多种语音处理任务的开发者。
Demucs (⭐ 8.8k+)
————————————————
版权声明:本文为CSDN博主「小丁学Java」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/m0_65152767/article/details/147311444

清华大学 300星

https://github.com/JusperLee/TIGER

在线免费,没有开源代码:

AI Fooler - 免费在线AI人声伴奏分离工具

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐