语音交互系统主要用于智能音箱、语音助手、实时翻译、客服机器人等场景。
核心技术是: ASR (语音识别)+ LLM (推理和内容生成)+ TTS(自然语言生成)

语音交互系统一个完整的流程是

1. 语音采集:麦克风收集用户的语音信号(如 “今天天气怎么样?”)。
2. ASR 转换:ASR 模型处理语音信号,输出对应的文本内容。
3. LLM 处理:将文本输入 LLM,模型根据指令生成回答文本(如 “今天晴,气温 15-25℃”)。
4. TTS 合成:TTS 模型将回答文本转为流畅的语音信号。
5. 语音输出:通过扬声器播放合成的语音,完成交互。

核心组件选型:
ASR选型:

开源可选
	Whisper(OpenAI),支持多语言,有不同量级模型,适合本地部署。
	FunASR(阿里巴巴): 支持实时语音识别
	低延时,流式版,必须使用GPU;
	嵌入设备的话,将ASR直接部署到设备上(例如树莓派可部署), 虽然识别比较慢,但不用考虑并发问题

API服务:  百度语音识别、阿里云语音识别  他们都提供有API接口

关于语音采集识别流程:
非流式 ASR: 麦克风采集到语音生成语音文件(wav/mp3),ASR模型读取语音文件,然后输出识别结果
流式 ASR: 实时采集音频,按固定时长(200-500ms)切分「音频块」,每处理一个音频块,就输出增量更新的识别文本

FunASR 是生产级流式 ASR 的首选,适合对延迟、精度有要求的场景;
Whisper(读威斯珀) 伪流式适合快速原型验证,无需复杂配置。

FunASR实时输出有个特性 :每次解码后输出「中间结果」(实时更新),静音时输出「最终结果」,完成一句话的识别闭环;

LLM 选型: 这个就不讲了

TTS 选型

开源轻量:
TTS(Coqui):支持多语言,可训练自定义音色,开源免费。
VITS:基于生成模型的 TTS,合成语音更自然。

本地部署: 资源开销比语音识别大多了,一般无法部署到嵌入式设备中


API 服务:百度语音合成、讯飞 TTS(支持情感语音、多音色选择)。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐