AI语音合成神器，支持23种语言，集成5个TTS引擎，整合包本地运行

s85858

26人浏览 · 2026-07-04 14:34:22

s85858 · 2026-07-04 14:34:22 发布

说明

适合想把声音克隆、TTS、听写、脚本生成和 Agent 语音输出放在本地机器上的创作者、游戏开发者和 Voice AI 开发者。它不是最省心的托管服务，而是一个开源本地工作台：你换来的是隐私、无按字符计费、可接本地 REST API 和 MCP 的控制权。

简单介绍

✨ 核心特性

🚀 本地优先
：所有模型和语音数据都在你的电脑上运行，完全保护隐私
🎯 多引擎支持
：集成5个TTS引擎（Qwen3-TTS、LuxTTS、Chatterbox Multilingual、Chatterbox Turbo、HumeAI TADA）
🌍 多语言覆盖
：支持23种语言，从英语到阿拉伯语、日语、印地语、斯瓦希里语等
🎨 专业音频效果
：8种后期处理效果（音高调整、混响、延迟、合唱、压缩、滤波器等）
😊 情感表达
：支持 [laugh]、[sigh]、[gasp] 等情感标签（Chatterbox Turbo引擎）
📜 无限长度
：自动分块处理，支持超长文本生成
🎬 故事编辑器
：多音轨时间线编辑器，适合对话、播客和叙事内容
🔌 API支持
：REST API便于集成到自己的项目中
⚡ 原生性能
：基于Tauri（Rust）构建，不是Electron，性能更优
🌐 跨平台
：支持macOS（MLX/Metal）、Windows（CUDA）、Linux、AMD ROCm、Intel Arc、Docker

🛠️ 技术栈

类别	技术/组件	说明
前端	Tauri (Rust)	跨平台桌面应用框架，性能优于Electron
后端	Python	语音合成引擎和API服务
TTS引擎	Qwen3-TTS	高质量多语言克隆，支持 delivery instructions
TTS引擎	LuxTTS	轻量级（~1GB显存），48kHz输出，CPU上150x实时速度
TTS引擎	Chatterbox Multilingual	支持23种语言，覆盖面最广
TTS引擎	Chatterbox Turbo	快速350M模型，支持情感/声音标签
TTS引擎	TADA	HumeAI语音语言模型，700s+连贯音频
音频处理	Spotify pedalboard	专业音频效果处理库
转录	Whisper	自动语音转文字

简单展示

资源地址：

资源荟萃

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

速卖通商品信息自动翻译实现方案

AI Agent技术社区

Hermes Agent Skill Runtime 架构拆解：让 AI Agent 不再从零开始

自进化系统里有一个反常识现象：更短的经验总结，不一定更容易被 Agent 用对。ACE 等研究里提到过类似的经验忠实度问题：Agent 往往更忠实地使用原始执行轨迹，比如具体代码、命令、工具参数、错误输出；但对"下次注意某某"这类凝练教训反而容易忽略或误读。这对工程实现的影响很直接。与其把经验压成一句漂亮摘要，不如保留更多可检索、可执行、可验证的条目。多花几百 token 读一个写清楚的SKILL