基于funasr+pyaudio实现电脑本地麦克风实时语音识别项目语音转文本python实现

【代码】基于funasr+pyaudio实现电脑本地麦克风实时语音识别项目语音转文本python实现。

FL1623863129

6576人浏览 · 2024-07-29 10:21:11

FL1623863129 · 2024-07-29 10:21:11 发布

【框架地址】

https://github.com/modelscope/FunASR

【简单介绍】

FunASR是一个功能全面的语音识别工具包，支持多种预训练模型的推理和微调，提供高精度和高效能的语音识别服务。结合PyAudio库，可以实现电脑本地麦克风实时语音识别项目。

该项目首先通过PyAudio库捕获麦克风输入的音频数据，PyAudio是一个跨平台的音频I/O库，可以方便地访问麦克风等音频设备。捕获的音频数据经过预处理，包括降噪、去除回声等，以提高识别准确率。

随后，使用FunASR中的实时语音识别模型（如Paraformer-zh-streaming）对预处理后的音频数据进行处理。这些模型能够实时地将音频数据转换为文本信息，支持中文等多语言识别。

在识别过程中，FunASR还提供了语音端点检测（VAD）功能，自动检测语音片段的开始和结束，以提高识别效率。同时，还可以添加标点恢复（PR）功能，为识别结果添加标点符号，提升可读性。

最终，识别结果会实时显示在界面上，用户可以通过界面实时查看和编辑识别结果。整个项目流程简洁高效，为实时语音识别应用提供了有力支持。

【测试环境】

anaconda3+python3.9

torch==2.0.1+cu117

funasr==1.1.4

modelscope==1.16.1

PyAudio ==0.2.14

【调用代码】

from FunasrManager import *
fm = FunasrManager()
fm.start()
while True:
    time.sleep(0.2)

【视频演示】

基于funasr+pyaudio实现电脑本地麦克风实时语音识别项目语音转文本python实现_哔哩哔哩_bilibili

【源码下载】

https://download.csdn.net/download/FL1623863129/89593855

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

试了6款AI编程工具，我只留这2个

AI Agent技术社区

为什么AI功能越发达，电商客服的差评反而越多？

但一个矛盾的现象正在越来越多的客服管理者之间蔓延：技术预算花了，机器人上线了，可客服团队的疲惫感没有减轻，大促期间的排队时长没有显著缩短，而用户投诉中关于“机器人答非所问”“转人工后要重复说三遍”的声音反而增加了。一线客服不再盯着几十个聊天窗口同时回复，而是监控AI Agent的运行状态，处理那些AI无法独立完成的边缘案例——情绪激动的投诉、涉及多方协调的纠纷、超出知识库范围的新品问题。人员流失率