保姆级教程：用SenseVoice-Small模型搭建高效语音识别系统

本文介绍了如何在星图GPU平台上自动化部署sensevoice-small-语音识别-onnx模型(带量化后)镜像，快速搭建高效的多语言语音识别系统。该平台简化了部署流程，用户可轻松实现音频转文字功能，典型应用场景包括会议录音的实时文字转录与内容整理，显著提升信息处理效率。

柴犬小管家

372人浏览 · 2026-02-09 00:16:09

柴犬小管家 · 2026-02-09 00:16:09 发布

保姆级教程：用SenseVoice-Small模型搭建高效语音识别系统

你是否想过，自己也能搭建一个能听懂中文、英文、粤语甚至日韩语的智能语音识别系统？今天，我就带你从零开始，手把手部署一个功能强大的多语言语音识别模型——SenseVoice-Small。

这个模型有多厉害？它不仅能准确识别超过50种语言的语音，还能分析说话人的情感，检测笑声、掌声等声音事件。最棒的是，它的推理速度极快，处理10秒音频仅需70毫秒，比业界知名的Whisper-Large模型快15倍！

无论你是想为应用添加语音交互功能，还是想研究语音识别技术，这篇教程都能让你在30分钟内搭建起一个可用的系统。我们不需要复杂的配置，直接用现成的镜像就能快速上手。

1. 环境准备与快速部署

1.1 系统要求与镜像选择

首先，你需要一个可以运行Docker的环境。如果你还没有安装Docker，可以去官网下载对应操作系统的版本。本教程使用的是CSDN星图平台提供的预置镜像，大大简化了部署过程。

镜像名称是：sensevoice-small-语音识别-onnx模型(带量化后)

这个镜像已经包含了所有必要的依赖：

ModelScope框架（用于加载和管理模型）
Gradio（用于构建Web界面）
SenseVoice-Small模型（已经过优化和量化，推理更快）

1.2 一键启动服务

在CSDN星图平台找到这个镜像后，点击"部署"按钮。系统会自动为你创建一个运行环境。初次加载可能需要几分钟时间，因为需要下载模型文件（大约几百MB）。

部署成功后，你会看到一个Web UI的访问链接。点击这个链接，就能打开语音识别的操作界面。

如果你在其他平台部署，也可以通过Docker命令直接运行：

# 假设你已经获取了镜像
docker run -p 7860:7860 sensevoice-small-asr

服务启动后，在浏览器中访问 http://localhost:7860 就能看到界面了。

2. 界面功能快速上手

2.1 认识操作界面

打开Web界面后，你会看到一个简洁明了的操作面板。主要分为三个区域：

音频输入区：在这里你可以上传音频文件、录制声音，或者使用系统提供的示例音频
参数设置区：选择识别语言、是否使用文本规范化等选项
结果展示区：识别结果会实时显示在这里

界面设计得非常直观，即使没有技术背景也能轻松操作。右上角可能还有一个"模型加载状态"的提示，当显示"模型已就绪"时，就可以开始使用了。

2.2 你的第一次语音识别

让我们从一个最简单的例子开始：

在界面上找到"示例音频"部分，系统通常会提供几个测试用的音频文件
点击其中一个示例音频的"使用"按钮
在语言选择下拉菜单中，根据音频内容选择合适的语言（比如中文音频选"zh"）
点击"开始识别"按钮

等待几秒钟，你就能在结果区域看到识别出的文字了。第一次使用可能会稍微慢一点，因为模型需要完成初始化，后续的识别速度会快很多。

3. 核心功能详解与实践

3.1 支持的语言和场景

SenseVoice-Small支持的语言非常丰富，主要包括：

中文普通话（zh）：日常对话、会议录音、新闻播报等
英语（en）：英文演讲、英语教学、国际会议等
粤语（yue）：广东话对话、粤语歌曲识别等
日语（ja）：日文对话、动漫台词、日语教学等
韩语（ko）：韩文对话、韩剧台词、K-pop歌词等
自动检测（auto）：让模型自动判断语言类型

除了基本的语音转文字，这个模型还有两个很实用的功能：

情感识别：能分析说话人的情绪状态，比如高兴、生气、悲伤等。这在客服质检、心理咨询等场景很有用。

声音事件检测：能识别出非语音的声音，比如：

笑声、哭声
掌声、欢呼声
咳嗽声、喷嚏声
音乐声、背景噪音

3.2 上传自定义音频文件

实际使用中，你肯定需要处理自己的音频文件。操作非常简单：

点击"上传音频"按钮
选择电脑上的音频文件（支持wav、mp3、m4a等常见格式）
文件大小建议在50MB以内，时长不超过30分钟
上传后，文件名会显示在界面上
选择对应的语言，点击"开始识别"

系统支持批量处理，你可以一次上传多个文件，然后逐个进行识别。这对于处理会议录音、采访记录等场景特别方便。

3.3 实时录音识别

如果你想实时测试模型的识别能力，可以使用录音功能：

点击"开始录音"按钮（可能需要授权浏览器使用麦克风）
对着麦克风说话，保持环境相对安静
说完后点击"停止录音"
系统会自动上传录音文件并开始识别

录音时的小技巧：

距离麦克风20-30厘米，避免喷麦
语速适中，不要过快或过慢
尽量在安静的环境下录音
每次录音建议不超过5分钟

3.4 高级参数设置

对于有特殊需求的用户，界面还提供了一些高级选项：

文本规范化（Text Normalization）：

开启后：数字"123"会转成"一百二十三"
关闭后：保持原始数字格式

这个功能在处理电话号码、金额等场景时很有用。比如银行客服录音中，开启文本规范化能让数字读起来更自然。

识别置信度显示：有些版本会显示每个词的识别置信度，帮助你判断识别结果的可靠性。置信度低的词可能需要人工核对。

4. 代码调用与集成

4.1 Python API直接调用

如果你想把语音识别功能集成到自己的Python项目中，可以直接调用模型API。镜像中已经包含了完整的Python环境。

首先，确保已经安装了必要的库：

# 这些通常已经预装在镜像中
# 如果需要手动安装，可以运行：
# pip install modelscope funasr torchaudio

from model import SenseVoiceSmall
import torch

# 初始化模型
model_dir = "iic/SenseVoiceSmall"  # 模型路径
m, kwargs = SenseVoiceSmall.from_pretrained(model=model_dir)

# 准备音频文件
audio_path = "你的音频文件.wav"

# 执行识别
result = m.inference(
    data_in=audio_path,
    language="zh",  # 指定语言：zh-中文, en-英文, yue-粤语, ja-日语, ko-韩语
    use_itn=True,   # 是否使用文本规范化
    **kwargs
)

# 输出结果
print("识别结果：", result[0]["text"])
print("处理耗时：", result[1]["extract_feat"], "秒")

4.2 批量处理音频文件

如果需要处理大量音频文件，可以写一个简单的批量处理脚本：

import os
from model import SenseVoiceSmall

# 初始化模型
m, kwargs = SenseVoiceSmall.from_pretrained(model="iic/SenseVoiceSmall")

# 音频文件夹路径
audio_folder = "./audio_files/"
output_file = "./识别结果.txt"

# 支持的文件格式
supported_formats = ['.wav', '.mp3', '.m4a', '.flac']

results = []
for filename in os.listdir(audio_folder):
    if any(filename.endswith(ext) for ext in supported_formats):
        filepath = os.path.join(audio_folder, filename)
        
        print(f"正在处理：{filename}")
        
        # 自动检测语言
        result = m.inference(
            data_in=filepath,
            language="auto",  # 自动检测语言
            use_itn=True,
            **kwargs
        )
        
        text = result[0]["text"]
        results.append(f"{filename}: {text}\n")
        
        print(f"识别完成：{text[:50]}...")

# 保存所有结果
with open(output_file, 'w', encoding='utf-8') as f:
    f.writelines(results)

print(f"批量处理完成，共处理{len(results)}个文件")

4.3 实时语音流处理

对于需要实时识别的场景，比如语音助手、实时字幕生成，你可以这样处理：

import pyaudio
import wave
import numpy as np
from model import SenseVoiceSmall
import threading
import queue

# 音频参数
CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 1
RATE = 16000  # SenseVoice模型要求的采样率
RECORD_SECONDS = 5

# 初始化模型
m, kwargs = SenseVoiceSmall.from_pretrained(model="iic/SenseVoiceSmall")

class RealTimeASR:
    def __init__(self):
        self.audio_queue = queue.Queue()
        self.is_recording = False
        
    def record_audio(self):
        """录制音频线程"""
        p = pyaudio.PyAudio()
        
        stream = p.open(format=FORMAT,
                       channels=CHANNELS,
                       rate=RATE,
                       input=True,
                       frames_per_buffer=CHUNK)
        
        print("开始录音...")
        self.is_recording = True
        
        while self.is_recording:
            data = stream.read(CHUNK)
            self.audio_queue.put(data)
        
        stream.stop_stream()
        stream.close()
        p.terminate()
    
    def process_audio(self):
        """处理音频线程"""
        frames = []
        
        while True:
            try:
                data = self.audio_queue.get(timeout=1)
                frames.append(data)
                
                # 每5秒处理一次
                if len(frames) >= RATE / CHUNK * RECORD_SECONDS:
                    # 保存临时文件
                    temp_file = "temp_audio.wav"
                    self.save_wav(frames, temp_file)
                    
                    # 识别
                    result = m.inference(
                        data_in=temp_file,
                        language="zh",
                        **kwargs
                    )
                    
                    print("实时识别结果：", result[0]["text"])
                    
                    # 清空frames，开始新的录音段
                    frames = []
                    
            except queue.Empty:
                continue
    
    def save_wav(self, frames, filename):
        """保存为wav文件"""
        wf = wave.open(filename, 'wb')
        wf.setnchannels(CHANNELS)
        wf.setsampwidth(2)  # 16bit
        wf.setframerate(RATE)
        wf.writeframes(b''.join(frames))
        wf.close()

# 使用示例
asr = RealTimeASR()

# 启动录音线程
record_thread = threading.Thread(target=asr.record_audio)
record_thread.start()

# 启动处理线程
process_thread = threading.Thread(target=asr.process_audio)
process_thread.start()

# 运行一段时间后停止
import time
time.sleep(30)
asr.is_recording = False

5. 常见问题与解决方案

5.1 模型加载失败怎么办？

如果遇到模型加载失败的情况，可以尝试以下步骤：

检查网络连接：模型需要从服务器下载，确保网络通畅
查看日志信息：在部署平台的日志中查看具体错误信息
重启服务：有时候简单的重启就能解决问题
检查存储空间：确保有足够的磁盘空间存放模型文件

常见的错误信息及解决方法：

"Connection refused"：网络问题，检查代理设置或防火墙
"Out of memory"：内存不足，尝试减少并发请求或升级配置
"Model file not found"：模型路径错误，检查配置文件

5.2 识别准确率不高怎么办？

语音识别准确率受多种因素影响，可以尝试以下优化方法：

音频质量方面：

使用采样率16kHz的音频（模型最优配置）
确保音频清晰，背景噪音小
如果是电话录音，尽量使用原始通话质量

参数调整方面：

正确选择语言类型（不要用中文模型识别英文）
对于专业术语多的场景，可以后续进行文本后处理
开启文本规范化功能，让数字、日期等更易读

使用技巧方面：

长音频可以分段处理，每段2-3分钟为宜
对于重要的内容，可以识别两次对比结果
结合上下文进行人工校对和修正

5.3 处理速度慢怎么办？

SenseVoice-Small本身已经很快了，但如果还是觉得慢，可以考虑：

使用GPU加速：如果平台支持GPU，启用GPU可以大幅提升速度
批量处理：一次性上传多个文件，让系统顺序处理
音频预处理：提前将音频转换为wav格式，减少实时转换时间
调整音频长度：过长的音频可以适当分段

正常情况下，1分钟的音频应该在3-5秒内处理完成。如果远慢于这个速度，可能需要检查系统配置。

5.4 特殊场景处理建议

会议录音识别：

多人对话时，识别结果可能会混在一起
建议先进行说话人分离，再分别识别
会前可以收集参会人名单，帮助模型识别专有名词

带口音的语音：

模型对标准普通话/英语识别效果最好
较重的地方口音可能需要适应
可以尝试用"自动检测"语言模式

音乐背景下的语音：

背景音乐会影响识别准确率
如果可能，先进行人声分离
适当提高音频音量

6. 进阶应用与扩展

6.1 构建完整的语音应用

有了语音识别能力，你可以构建各种有趣的应用：

智能会议记录系统：

实时录制会议内容
自动识别并转写文字
提取会议纪要和行动项
生成会议报告和待办事项

语音内容审核平台：

识别用户上传的语音内容
检测违规词汇和敏感信息
分析语音情感，识别异常情绪
自动标记需要人工审核的内容

无障碍辅助工具：

实时语音转文字，为听障人士提供字幕
语音控制界面，为行动不便者提供便利
多语言实时翻译，打破语言障碍

6.2 与其他AI服务集成

SenseVoice可以与其他AI模型结合，实现更强大的功能：

# 示例：语音识别 + 情感分析 + 文本摘要
from model import SenseVoiceSmall
import requests

# 语音识别
m, kwargs = SenseVoiceSmall.from_pretrained(model="iic/SenseVoiceSmall")
audio_result = m.inference(data_in="customer_service.wav", language="zh", **kwargs)
text = audio_result[0]["text"]

# 情感分析（假设有情感分析API）
def analyze_sentiment(text):
    # 这里可以调用情感分析模型
    # 简单示例：根据关键词判断
    positive_words = ["满意", "好", "谢谢", "不错"]
    negative_words = ["不满意", "差", "投诉", "问题"]
    
    positive_count = sum(1 for word in positive_words if word in text)
    negative_count = sum(1 for word in negative_words if word in text)
    
    if positive_count > negative_count:
        return "正面"
    elif negative_count > positive_count:
        return "负面"
    else:
        return "中性"

# 文本摘要
def generate_summary(text, max_length=100):
    # 简单提取关键句
    sentences = text.split('。')
    if len(sentences) > 3:
        summary = '。'.join(sentences[:3]) + '。'
    else:
        summary = text
    
    if len(summary) > max_length:
        summary = summary[:max_length] + "..."
    
    return summary

# 整合处理
transcript = text
sentiment = analyze_sentiment(transcript)
summary = generate_summary(transcript)

print("语音转写：", transcript)
print("情感分析：", sentiment)
print("内容摘要：", summary)

6.3 性能监控与优化

对于生产环境，建议添加监控和日志：

import time
import logging
from datetime import datetime

# 配置日志
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler('asr_service.log'),
        logging.StreamHandler()
    ]
)

class ASRServiceWithMonitoring:
    def __init__(self):
        self.m, self.kwargs = SenseVoiceSmall.from_pretrained(model="iic/SenseVoiceSmall")
        self.request_count = 0
        self.total_processing_time = 0
        
    def recognize_with_monitoring(self, audio_path, language="auto"):
        start_time = time.time()
        self.request_count += 1
        
        try:
            # 执行识别
            result = self.m.inference(
                data_in=audio_path,
                language=language,
                **self.kwargs
            )
            
            processing_time = time.time() - start_time
            self.total_processing_time += processing_time
            
            # 记录日志
            audio_duration = self.get_audio_duration(audio_path)
            logging.info(
                f"识别成功 | 文件: {audio_path} | "
                f"时长: {audio_duration}s | "
                f"处理时间: {processing_time:.2f}s | "
                f"实时率: {audio_duration/processing_time:.1f}x"
            )
            
            return {
                "success": True,
                "text": result[0]["text"],
                "processing_time": processing_time,
                "audio_duration": audio_duration
            }
            
        except Exception as e:
            logging.error(f"识别失败 | 文件: {audio_path} | 错误: {str(e)}")
            return {
                "success": False,
                "error": str(e)
            }
    
    def get_audio_duration(self, audio_path):
        # 简单获取音频时长的方法
        import wave
        try:
            with wave.open(audio_path, 'rb') as wav_file:
                frames = wav_file.getnframes()
                rate = wav_file.getframerate()
                return frames / float(rate)
        except:
            return 0
    
    def get_statistics(self):
        avg_time = (self.total_processing_time / self.request_count 
                   if self.request_count > 0 else 0)
        
        return {
            "total_requests": self.request_count,
            "avg_processing_time": avg_time,
            "uptime": datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        }

# 使用示例
service = ASRServiceWithMonitoring()

# 处理音频
result = service.recognize_with_monitoring("test.wav", "zh")
if result["success"]:
    print("识别结果：", result["text"])

# 查看统计信息
stats = service.get_statistics()
print("服务统计：", stats)

7. 总结

通过这篇教程，你已经掌握了使用SenseVoice-Small模型搭建语音识别系统的完整流程。我们来回顾一下重点：

核心收获：

快速部署：利用预置镜像，几分钟就能搭建可用的语音识别服务
多语言支持：一个模型支持50+种语言，包括中文、英文、粤语、日语、韩语等
丰富功能：不仅转写文字，还能识别情感、检测声音事件
高效推理：处理速度快，10秒音频仅需70毫秒
灵活集成：提供Web界面和Python API两种使用方式

实际应用建议：

对于简单需求，直接使用Web界面最方便
需要批量处理时，编写Python脚本自动化处理
生产环境建议添加监控和错误处理
重要内容建议人工核对识别结果

下一步学习方向：如果你对这个模型感兴趣，可以：

研究模型原理，了解其技术架构
尝试在更多场景下应用，积累实践经验
学习如何微调模型，适应特定领域的需求
探索与其他AI技术的结合应用

语音识别技术正在快速发展，SenseVoice-Small作为一个开源的高性能模型，为开发者提供了很好的起点。无论你是想快速实现一个功能，还是深入研究语音技术，这个模型都能满足你的需求。

记住，技术的学习需要实践。建议你从处理自己的音频文件开始，逐步尝试更复杂的应用场景。遇到问题时，查看日志、调整参数、优化输入，这些经验都会让你更好地掌握这项技术。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

试了6款AI编程工具，我只留这2个

AI Agent技术社区

为什么AI功能越发达，电商客服的差评反而越多？

但一个矛盾的现象正在越来越多的客服管理者之间蔓延：技术预算花了，机器人上线了，可客服团队的疲惫感没有减轻，大促期间的排队时长没有显著缩短，而用户投诉中关于“机器人答非所问”“转人工后要重复说三遍”的声音反而增加了。一线客服不再盯着几十个聊天窗口同时回复，而是监控AI Agent的运行状态，处理那些AI无法独立完成的边缘案例——情绪激动的投诉、涉及多方协调的纠纷、超出知识库范围的新品问题。人员流失率