Qwen3-ASR-1.7B流式推理教程：实时语音转文字实现

本文介绍了如何在星图GPU平台上自动化部署Qwen3-ASR-1.7B语音识别模型v2，实现实时语音转文字功能。该模型支持流式推理，可应用于视频会议实时字幕生成等场景，显著提升语音交互体验。

征途阿韦

119人浏览 · 2026-02-13 00:32:26

征途阿韦 · 2026-02-13 00:32:26 发布

Qwen3-ASR-1.7B流式推理教程：实时语音转文字实现

1. 引言

语音识别技术正在改变我们与设备交互的方式，从智能助手到实时字幕，都离不开高效的语音转文字能力。今天我们要介绍的Qwen3-ASR-1.7B模型，不仅支持52种语言和方言的识别，更重要的是它提供了流式推理功能，能够实现真正的实时语音转文字。

想象一下这样的场景：你在进行视频会议时，系统能够实时生成字幕；或者你在记录灵感时，语音内容即时转化为文字。这些都需要低延迟的流式识别能力。传统的语音识别往往需要等待整段音频结束才能处理，而流式推理可以边录音边识别，大大提升了用户体验。

本教程将手把手教你如何配置和使用Qwen3-ASR-1.7B的流式推理功能，即使你是刚接触语音识别的新手，也能快速上手实现实时语音转文字应用。

2. 环境准备与安装

2.1 系统要求

在开始之前，确保你的系统满足以下要求：

Python 3.8或更高版本
至少8GB内存（推荐16GB）
支持CUDA的GPU（可选，但强烈推荐用于更好的性能）

2.2 安装依赖包

打开终端，执行以下命令安装必要的依赖：

pip install torch torchaudio transformers
pip install sounddevice soundfile  # 用于音频录制和播放
pip install numpy  # 数值计算

这些包涵盖了深度学习框架、音频处理和模型推理的基本功能。如果你打算使用GPU加速，建议安装对应CUDA版本的PyTorch。

2.3 下载模型

Qwen3-ASR-1.7B模型可以通过Hugging Face或ModelScope获取：

from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor

model_name = "Qwen/Qwen3-ASR-1.7B"

# 下载并加载模型
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_name)
processor = AutoProcessor.from_pretrained(model_name)

首次运行时会自动下载模型文件，大小约为3.5GB，请确保有足够的磁盘空间和稳定的网络连接。

3. 流式推理基础概念

3.1 什么是流式推理

流式推理与传统的批处理方式不同，它能够处理连续的数据流。在语音识别中，这意味着不需要等待完整的音频文件，而是可以实时处理不断输入的音频片段。

想象一下水流经过管道——传统的批处理要等所有水都进入管道才开始处理，而流式处理是水一边流一边处理，这样就能实现更低的延迟。

3.2 流式推理的优势

低延迟：实时生成识别结果，延迟通常在几百毫秒内
内存高效：不需要存储完整的音频数据
实时反馈：适用于需要即时响应的场景，如实时字幕、语音助手等

4. 实现实时语音录制

4.1 设置音频录制

我们需要一个能够持续录制音频并分块处理的机制：

import sounddevice as sd
import numpy as np

class AudioRecorder:
    def __init__(self, sample_rate=16000, chunk_duration=1.0):
        self.sample_rate = sample_rate
        self.chunk_size = int(sample_rate * chunk_duration)
        self.audio_buffer = np.array([], dtype=np.float32)
        
    def callback(self, indata, frames, time, status):
        """音频回调函数，每次采集到新的音频数据时调用"""
        self.audio_buffer = np.append(self.audio_buffer, indata[:, 0])
        
    def start_recording(self):
        """开始录制音频"""
        print("开始录音...")
        self.stream = sd.InputStream(
            callback=self.callback,
            channels=1,
            samplerate=self.sample_rate,
            blocksize=self.chunk_size
        )
        self.stream.start()
        
    def stop_recording(self):
        """停止录制"""
        if hasattr(self, 'stream'):
            self.stream.stop()
            self.stream.close()
            
    def get_audio_chunk(self):
        """获取一个音频块进行处理"""
        if len(self.audio_buffer) >= self.chunk_size:
            chunk = self.audio_buffer[:self.chunk_size]
            self.audio_buffer = self.audio_buffer[self.chunk_size:]
            return chunk
        return None

4.2 音频预处理

获取的音频数据需要经过预处理才能输入模型：

def preprocess_audio(audio_chunk, sample_rate=16000):
    """预处理音频数据"""
    # 转换为模型需要的格式
    inputs = processor(
        audio=audio_chunk,
        sampling_rate=sample_rate,
        return_tensors="pt",
        padding=True
    )
    return inputs

5. 配置流式推理管道

5.1 创建流式处理类

我们需要创建一个专门的类来处理流式推理：

class StreamASR:
    def __init__(self, model, processor):
        self.model = model
        self.processor = processor
        self.partial_results = []
        
    def process_chunk(self, audio_chunk):
        """处理单个音频块"""
        if audio_chunk is None:
            return None
            
        # 预处理音频
        inputs = preprocess_audio(audio_chunk)
        
        # 使用模型进行推理
        with torch.no_grad():
            outputs = model.generate(**inputs)
            
        # 解码结果
        text = processor.batch_decode(outputs, skip_special_tokens=True)[0]
        return text
        
    def update_results(self, new_text):
        """更新部分结果"""
        self.partial_results.append(new_text)
        return " ".join(self.partial_results)

5.2 实时处理循环

下面是主要的处理循环，它将持续处理输入的音频：

def run_streaming_asr():
    # 初始化组件
    recorder = AudioRecorder()
    asr_processor = StreamASR(model, processor)
    
    try:
        recorder.start_recording()
        print("实时语音识别已启动，请开始说话...")
        print("按Ctrl+C停止识别")
        
        while True:
            # 获取音频块
            chunk = recorder.get_audio_chunk()
            if chunk is not None:
                # 处理音频块
                text = asr_processor.process_chunk(chunk)
                if text:
                    # 更新并显示结果
                    full_text = asr_processor.update_results(text)
                    print(f"\r识别结果: {full_text}", end="", flush=True)
                    
    except KeyboardInterrupt:
        print("\n停止识别")
    finally:
        recorder.stop_recording()

6. 完整示例代码

下面是一个完整的可运行示例：

import torch
import numpy as np
import sounddevice as sd
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor

class RealTimeASR:
    def __init__(self):
        # 加载模型和处理器
        self.model_name = "Qwen/Qwen3-ASR-1.7B"
        self.model = AutoModelForSpeechSeq2Seq.from_pretrained(self.model_name)
        self.processor = AutoProcessor.from_pretrained(self.model_name)
        
        # 音频设置
        self.sample_rate = 16000
        self.chunk_duration = 1.0  # 每秒处理一次
        self.chunk_size = int(self.sample_rate * self.chunk_duration)
        
        # 初始化缓冲区
        self.audio_buffer = np.array([], dtype=np.float32)
        self.partial_results = []
        
    def audio_callback(self, indata, frames, time, status):
        """音频输入回调"""
        self.audio_buffer = np.append(self.audio_buffer, indata[:, 0])
        
    def preprocess_audio(self, audio_data):
        """预处理音频数据"""
        inputs = self.processor(
            audio=audio_data,
            sampling_rate=self.sample_rate,
            return_tensors="pt",
            padding=True
        )
        return inputs
        
    def process_audio_chunk(self):
        """处理音频块"""
        if len(self.audio_buffer) < self.chunk_size:
            return None
            
        chunk = self.audio_buffer[:self.chunk_size]
        self.audio_buffer = self.audio_buffer[self.chunk_size:]
        
        inputs = self.preprocess_audio(chunk)
        
        with torch.no_grad():
            outputs = self.model.generate(**inputs)
            
        text = self.processor.batch_decode(outputs, skip_special_tokens=True)[0]
        return text
        
    def start_recognition(self):
        """开始实时识别"""
        print("初始化实时语音识别...")
        
        # 创建音频流
        stream = sd.InputStream(
            callback=self.audio_callback,
            channels=1,
            samplerate=self.sample_rate,
            blocksize=self.chunk_size
        )
        
        try:
            stream.start()
            print("开始录音，请说话...")
            print("按Ctrl+C停止")
            
            while True:
                text = self.process_audio_chunk()
                if text:
                    self.partial_results.append(text)
                    current_text = " ".join(self.partial_results)
                    print(f"\r识别结果: {current_text}", end="", flush=True)
                    
        except KeyboardInterrupt:
            print("\n识别结束")
        finally:
            stream.stop()
            stream.close()

# 运行示例
if __name__ == "__main__":
    asr = RealTimeASR()
    asr.start_recognition()

7. 优化与调试建议

7.1 性能优化

如果你的应用需要更高的性能，可以考虑以下优化：

# 启用GPU加速（如果可用）
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

# 使用半精度浮点数减少内存使用
model.half()

# 设置推理参数优化性能
generate_kwargs = {
    "max_new_tokens": 128,
    "num_beams": 1,  # 使用贪心搜索加快速度
    "do_sample": False
}

7.2 处理常见问题

音频质量差：确保使用合适的麦克风，减少背景噪音
识别准确率低：尝试调整chunk_duration，太短的片段可能影响识别效果
延迟过高：检查硬件性能，考虑使用GPU加速

7.3 扩展功能

你还可以扩展这个基础实现，添加以下功能：

实时显示识别置信度
支持多种音频输入源
添加标点符号恢复
实现语音活动检测（VAD）来只在有语音时处理

8. 总结

通过本教程，我们实现了Qwen3-ASR-1.7B的流式推理功能，能够实时将语音转换为文字。这个方案的优势在于低延迟和实时性，非常适合需要即时反馈的应用场景。

实际使用中，流式推理的效果相当不错，识别准确率令人满意，延迟也控制在可接受范围内。当然，具体的表现还会受到音频质量、硬件性能等因素的影响。

如果你刚开始接触语音识别，建议先从简单的例子开始，熟悉基本的音频处理和模型调用。等掌握了基础知识后，再尝试更复杂的优化和功能扩展。流式语音识别是一个很有前景的方向，随着模型的不断改进，实时识别的效果会越来越好。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

让 Codex 桌面版拥抱 DeepSeek-V4：协议桥接与模型网关接入实践

4SAPI 提供了一套标准的 Chat Completions 接口，完全兼容 DeepSeek V4 Pro 等模型，使用时只需将 base URL 和密钥替换为平台分配的值即可。这样一来，既保留了桥接层的协议转换能力，又获得了网关带来的额外弹性。这样的模型网关，则进一步提升了链路的稳定性和密钥管理的便捷度，尤其适合团队或对服务可用性有更高要求的场景。│Codex 桌面版│ ──────────

AI Agent技术社区

别再迷信“突破限制”：Gemini 3.5-flash 边界测试实战复盘

AI Agent技术社区

想要转型AI Agent开发？现在开始学，还不晚

用 @tool 装饰器定义工具@tool"""搜索互联网获取实时信息。当需要最新数据时使用此工具。"""# 实际接入 Tavily / Serper 等搜索 APIreturnf"搜索结果：关于 {query} 的最新信息..."@tool"""计算数学表达式，如 '2 + 3 * 4'"""# 绑定工具到模型# 模型会自动决定是否调用工具response = llm_with_tools.inv