01

说明

适合想把声音克隆、TTS、听写、脚本生成和 Agent 语音输出放在本地机器上的创作者、游戏开发者和 Voice AI 开发者。它不是最省心的托管服务,而是一个开源本地工作台:你换来的是隐私、无按字符计费、可接本地 REST API 和 MCP 的控制权。

02

简单介绍

✨ 核心特性

  • 🚀 本地优先

    :所有模型和语音数据都在你的电脑上运行,完全保护隐私

  • 🎯 多引擎支持

    :集成5个TTS引擎(Qwen3-TTS、LuxTTS、Chatterbox Multilingual、Chatterbox Turbo、HumeAI TADA)

  • 🌍 多语言覆盖

    :支持23种语言,从英语到阿拉伯语、日语、印地语、斯瓦希里语等

  • 🎨 专业音频效果

    :8种后期处理效果(音高调整、混响、延迟、合唱、压缩、滤波器等)

  • 😊 情感表达

    :支持 [laugh]、[sigh]、[gasp] 等情感标签(Chatterbox Turbo引擎)

  • 📜 无限长度

    :自动分块处理,支持超长文本生成

  • 🎬 故事编辑器

    :多音轨时间线编辑器,适合对话、播客和叙事内容

  • 🔌 API支持

    :REST API便于集成到自己的项目中

  • ⚡ 原生性能

    :基于Tauri(Rust)构建,不是Electron,性能更优

  • 🌐 跨平台

    :支持macOS(MLX/Metal)、Windows(CUDA)、Linux、AMD ROCm、Intel Arc、Docker

🛠️ 技术栈

类别 技术/组件 说明
前端 Tauri (Rust) 跨平台桌面应用框架,性能优于Electron
后端 Python 语音合成引擎和API服务
TTS引擎 Qwen3-TTS 高质量多语言克隆,支持 delivery instructions
TTS引擎 LuxTTS 轻量级(~1GB显存),48kHz输出,CPU上150x实时速度
TTS引擎 Chatterbox Multilingual 支持23种语言,覆盖面最广
TTS引擎 Chatterbox Turbo 快速350M模型,支持情感/声音标签
TTS引擎 TADA HumeAI语音语言模型,700s+连贯音频
音频处理 Spotify pedalboard 专业音频效果处理库
转录 Whisper 自动语音转文字

03

简单展示


资源地址:

资源荟萃

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐