科普语音交互所需开源技术方案
以上方案可根据需求选择,如低延迟选百聆、多语言翻译选FunAudioLLM、高精度中文识别选FireRedASR-LLM。
·
以下是ASR(自动语音识别)、LLM(大语言模型)和TTS(文本转语音)三者结合的应用场景及开源方案:
一、应用场景
-
智能语音助手
- 如百聆(Bailing),支持语音输入、意图理解、任务管理及语音输出,端到端延迟仅800ms,支持打断和记忆功能。
- 车载语音交互系统(如蔚来、小鹏),结合ASR识别指令、LLM处理复杂查询(如"找有充电桩的高评分餐厅")和TTS提供语音反馈。
-
语音到语音翻译(S2ST)
- 阿里FunAudioLLM整合SenseVoice(ASR)、LLM(语义转换)和CosyVoice(TTS),实现跨语言语音翻译(如中文→英文/日语/韩语)。
-
情感语音聊天
- 结合ASR识别语音、LLM生成情感化文本回复,再通过TTS合成带情感的语音(如FunAudioLLM的CosyVoice支持情感控制)。
-
交互式播客与有声读物
- LLM分析内容情感,TTS生成富有表现力的语音(如FunAudioLLM的CosyVoice用于有声读物)。
-
教育辅助(如IELTS口语练习)
- 百聆支持雅思口语练习,ASR识别学生发音,LLM生成反馈,TTS提供标准发音示范。
-
无障碍通信
- 为听障人士实时转换语音为文字(ASR+LLM),再为视障人士转换文字为语音(TTS)。
-
智能客服
- ASR转写客户语音,LLM生成解决方案,TTS播报回复(如OSUM模型支持情感识别优化服务体验)。
二、开源方案
-
百聆(Bailing)
- ASR: FunASR
- VAD: silero-vad
- LLM: DeepSeek
- TTS: edge-tts/Kokoro-82M
- 特点:低延迟(800ms)、支持打断、无需GPU。
-
阿里FunAudioLLM
- ASR: SenseVoice(多语言、情感识别)
- LLM: 可对接Qwen等模型
- TTS: CosyVoice(多语言、音色/情感控制)
- 特点:支持语音翻译、情感交互、开源在ModelScope/HuggingFace。
-
OSUM(西北工业大学)
- ASR: Whisper编码器
- LLM: Qwen2微调版
- TTS: 可对接ChatTTS等
- 特点:多任务支持(ASR+情感识别+时间戳)。
-
FireRedASR-LLM(小红书)
- ASR: Conformer编码器+Qwen2-7B
- LLM: 适配器微调
- TTS: 需外接(如VITS)
- 特点:高精度中文识别(CER 3.05%)。
-
联发科MR Breeze ASR 25
- ASR: Whisper改进版(优化台湾口音)
- LLM: 可对接本地V-LLM
- TTS: 需外接(如联发科TTS)
- 特点:中英混合识别提升56%。
-
Java离线方案
- ASR: Mozilla DeepSpeech(JNI调用)
- LLM: 规则引擎/小型NLP模型
- TTS: MaryTTS
- 特点:完全离线,隐私保护。
以上方案可根据需求选择,如低延迟选百聆、多语言翻译选FunAudioLLM、高精度中文识别选FireRedASR-LLM。
更多推荐



所有评论(0)