科普语音交互所需开源技术方案

以上方案可根据需求选择，如低延迟选百聆、多语言翻译选FunAudioLLM、高精度中文识别选FireRedASR-LLM。

mopmgerg54mo · 2025-07-03 17:09:51 发布

以下是ASR（自动语音识别）、LLM（大语言模型）和TTS（文本转语音）三者结合的应用场景及开源方案：

智能语音助手
- 如百聆（Bailing），支持语音输入、意图理解、任务管理及语音输出，端到端延迟仅800ms，支持打断和记忆功能。
- 车载语音交互系统（如蔚来、小鹏），结合ASR识别指令、LLM处理复杂查询（如"找有充电桩的高评分餐厅"）和TTS提供语音反馈。
语音到语音翻译（S2ST）
- 阿里FunAudioLLM整合SenseVoice（ASR）、LLM（语义转换）和CosyVoice（TTS），实现跨语言语音翻译（如中文→英文/日语/韩语）。
情感语音聊天
- 结合ASR识别语音、LLM生成情感化文本回复，再通过TTS合成带情感的语音（如FunAudioLLM的CosyVoice支持情感控制）。
交互式播客与有声读物
- LLM分析内容情感，TTS生成富有表现力的语音（如FunAudioLLM的CosyVoice用于有声读物）。
教育辅助（如IELTS口语练习）
- 百聆支持雅思口语练习，ASR识别学生发音，LLM生成反馈，TTS提供标准发音示范。
无障碍通信
- 为听障人士实时转换语音为文字（ASR+LLM），再为视障人士转换文字为语音（TTS）。
智能客服
- ASR转写客户语音，LLM生成解决方案，TTS播报回复（如OSUM模型支持情感识别优化服务体验）。

百聆（Bailing）
- ASR: FunASR
- VAD: silero-vad
- LLM: DeepSeek
- TTS: edge-tts/Kokoro-82M
- 特点：低延迟（800ms）、支持打断、无需GPU。
阿里FunAudioLLM
- ASR: SenseVoice（多语言、情感识别）
- LLM: 可对接Qwen等模型
- TTS: CosyVoice（多语言、音色/情感控制）
- 特点：支持语音翻译、情感交互、开源在ModelScope/HuggingFace。
OSUM（西北工业大学）
- ASR: Whisper编码器
- LLM: Qwen2微调版
- TTS: 可对接ChatTTS等
- 特点：多任务支持（ASR+情感识别+时间戳）。
FireRedASR-LLM（小红书）
- ASR: Conformer编码器+Qwen2-7B
- LLM: 适配器微调
- TTS: 需外接（如VITS）
- 特点：高精度中文识别（CER 3.05%）。
联发科MR Breeze ASR 25
- ASR: Whisper改进版（优化台湾口音）
- LLM: 可对接本地V-LLM
- TTS: 需外接（如联发科TTS）
- 特点：中英混合识别提升56%。
Java离线方案
- ASR: Mozilla DeepSpeech（JNI调用）
- LLM: 规则引擎/小型NLP模型
- TTS: MaryTTS
- 特点：完全离线，隐私保护。