Qwen-Audio语音识别实战：5分钟快速部署与测试教程

小鹿嘻嘻

477人浏览 · 2026-02-12 10:44:21

小鹿嘻嘻 · 2026-02-12 10:44:21 发布

Qwen-Audio语音识别实战：5分钟快速部署与测试教程

想不想试试让AI听懂你的声音？最近阿里云开源了一个挺有意思的模型叫Qwen-Audio，它不仅能听懂人说话，还能识别自然声音、音乐，甚至能跟你聊起来。今天我就带大家快速上手，用不了5分钟，你就能在自己的电脑上跑起来这个语音识别模型，亲自试试它的效果。

1. 准备工作：环境搭建

咱们先从最基础的开始，把需要的环境准备好。整个过程很简单，跟着步骤走就行。

1.1 系统要求

首先看看你的电脑能不能跑这个模型：

Python版本：需要Python 3.8或更高版本
PyTorch：建议用PyTorch 2.0或更高版本
内存：模型比较大，建议至少有8GB可用内存
存储空间：模型文件大概需要15GB左右的空间
FFmpeg：处理音频文件需要这个工具

如果你不确定自己的环境，可以打开命令行，输入下面的命令检查：

# 检查Python版本
python --version

# 检查PyTorch是否安装
python -c "import torch; print(f'PyTorch版本: {torch.__version__}')"

1.2 安装依赖包

接下来安装必要的Python包。建议先创建一个虚拟环境，这样不会影响你其他的项目：

# 创建虚拟环境（可选但推荐）
python -m venv qwen_audio_env

# 激活虚拟环境
# Windows系统：
qwen_audio_env\Scripts\activate
# Linux/Mac系统：
source qwen_audio_env/bin/activate

# 安装核心依赖
pip install transformers torch

# 安装音频处理相关包
pip install librosa soundfile

如果你在安装过程中遇到网络问题，可以试试用国内的镜像源：

pip install transformers torch -i https://pypi.tuna.tsinghua.edu.cn/simple

1.3 安装FFmpeg

FFmpeg是处理音频文件的关键工具。不同系统的安装方法不一样：

Windows系统：

访问FFmpeg官网下载Windows版本
解压后把ffmpeg.exe所在目录添加到系统PATH环境变量

Linux系统（Ubuntu/Debian）：

sudo apt update
sudo apt install ffmpeg

Mac系统：

brew install ffmpeg

安装完成后，在命令行输入ffmpeg -version，如果能显示版本信息就说明安装成功了。

2. 快速上手：第一个语音识别程序

环境准备好了，咱们直接写代码试试效果。我会给你一个完整的例子，你复制粘贴就能跑。

2.1 基础语音识别

先来试试最简单的功能：把一段音频转成文字。我准备了一个完整的Python脚本：

# 导入必要的库
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 设置随机种子，确保每次运行结果一致
torch.manual_seed(1234)

print("正在加载Qwen-Audio模型，这可能需要几分钟...")

# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-Audio", trust_remote_code=True)

# 使用GPU（如果有的话），没有GPU就用CPU
if torch.cuda.is_available():
    print("检测到GPU，使用GPU加速")
    model = AutoModelForCausalLM.from_pretrained(
        "Qwen/Qwen-Audio", 
        device_map="cuda", 
        trust_remote_code=True
    ).eval()
else:
    print("未检测到GPU，使用CPU运行（速度会慢一些）")
    model = AutoModelForCausalLM.from_pretrained(
        "Qwen/Qwen-Audio", 
        device_map="cpu", 
        trust_remote_code=True
    ).eval()

print("模型加载完成！")

# 准备音频文件（这里用了一个公开的测试音频）
audio_url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/1272-128104-0000.flac"

# 设置识别参数：英语、转写、不带时间戳
sp_prompt = "<|startoftranscript|><|en|><|transcribe|><|en|><|notimestamps|><|wo_itn|>"
query = f"<audio>{audio_url}</audio>{sp_prompt}"

# 处理音频
audio_info = tokenizer.process_audio(query)
inputs = tokenizer(query, return_tensors='pt', audio_info=audio_info)
inputs = inputs.to(model.device)

# 生成识别结果
print("正在识别音频内容...")
pred = model.generate(**inputs, audio_info=audio_info)
response = tokenizer.decode(pred.cpu()[0], skip_special_tokens=False, audio_info=audio_info)

# 提取纯文本结果
# 模型返回的结果包含一些特殊标记，我们需要提取出实际内容
if "<|startoftranscription|>" in response:
    text_start = response.find("<|startoftranscription|>") + len("<|startoftranscription|>")
    text_end = response.find("<|endoftext|>")
    transcript = response[text_start:text_end].strip()
else:
    transcript = response

print("\n" + "="*50)
print("识别结果：")
print(transcript)
print("="*50)

把这段代码保存为audio_transcribe.py，然后在命令行运行：

python audio_transcribe.py

第一次运行会下载模型文件，可能需要等几分钟（取决于你的网速）。下载完成后，你会看到类似这样的输出：

正在加载Qwen-Audio模型，这可能需要几分钟...
检测到GPU，使用GPU加速
模型加载完成！
正在识别音频内容...

==================================================
识别结果：
mister quilting is the apostle of the middle classes and we are glad to welcome his gospel
==================================================

看到没？模型成功识别出了音频里的英文内容。这个测试音频是一段英文演讲，模型准确地转写了出来。

2.2 试试中文语音识别

Qwen-Audio也支持中文。咱们换个中文音频试试：

# 中文语音识别示例
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 加载模型（如果已经加载过，可以复用）
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-Audio", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen-Audio", 
    device_map="cuda" if torch.cuda.is_available() else "cpu", 
    trust_remote_code=True
).eval()

# 中文音频（这里需要你自己准备一个中文音频文件，或者用下面的URL）
# 注意：你需要有一个可访问的中文音频URL
chinese_audio_url = "你的中文音频文件URL"

# 中文识别参数
chinese_prompt = "<|startoftranscript|><|zh|><|transcribe|><|zh|><|notimestamps|><|wo_itn|>"
chinese_query = f"<audio>{chinese_audio_url}</audio>{chinese_prompt}"

# 处理并识别
audio_info = tokenizer.process_audio(chinese_query)
inputs = tokenizer(chinese_query, return_tensors='pt', audio_info=audio_info)
inputs = inputs.to(model.device)

pred = model.generate(**inputs, audio_info=audio_info)
response = tokenizer.decode(pred.cpu()[0], skip_special_tokens=False, audio_info=audio_info)

# 提取结果
if "<|startoftranscription|>" in response:
    text_start = response.find("<|startoftranscription|>") + len("<|startoftranscription|>")
    text_end = response.find("<|endoftext|>")
    transcript = response[text_start:text_end].strip()
else:
    transcript = response

print("中文识别结果：")
print(transcript)

如果你没有现成的中文音频，可以自己录一段。用手机录个10秒左右的语音，说一句"今天天气真好，我想去公园散步"，保存为MP3或WAV格式，然后上传到你能访问的地方（比如云存储）。

3. 进阶功能：语音对话

Qwen-Audio还有个聊天版本叫Qwen-Audio-Chat，不仅能识别语音，还能跟你对话。这个更有意思，咱们也来试试。

3.1 安装聊天版模型

聊天版模型需要单独安装：

# Qwen-Audio-Chat 示例
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

print("正在加载Qwen-Audio-Chat模型...")

# 加载聊天版模型
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-Audio-Chat", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen-Audio-Chat",
    device_map="cuda" if torch.cuda.is_available() else "cpu",
    trust_remote_code=True
).eval()

print("聊天模型加载完成！")

3.2 第一次语音对话

现在我们来试试跟AI用语音对话：

# 第一轮对话：问音频里说了什么
query = tokenizer.from_list_format([
    {'audio': 'https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/1272-128104-0000.flac'},
    {'text': '这段音频里说了什么？'},
])

response, history = model.chat(tokenizer, query=query, history=None)
print("AI回复：", response)

# 第二轮对话：基于之前的对话继续提问
response, history = model.chat(
    tokenizer, 
    '说话的人是男性还是女性？大概什么年龄？',
    history=history
)
print("AI回复：", response)

运行这个代码，你会看到AI不仅能告诉你音频内容，还能分析说话人的特征。这就是多轮对话的能力。

3.3 处理本地音频文件

你可能更想处理自己电脑上的音频文件。没问题，Qwen-Audio-Chat支持本地文件：

# 处理本地音频文件
import os

# 假设你有一个本地音频文件
local_audio_path = "path/to/your/audio.wav"

# 检查文件是否存在
if os.path.exists(local_audio_path):
    query = tokenizer.from_list_format([
        {'audio': local_audio_path},
        {'text': '这段音频的主要内容是什么？'},
    ])
    
    response, history = model.chat(tokenizer, query=query, history=None)
    print("本地音频分析结果：", response)
else:
    print(f"文件 {local_audio_path} 不存在，请检查路径")

4. 实用技巧与常见问题

用了一段时间后，我总结了一些实用技巧，也遇到过一些问题，这里分享给你。

4.1 音频文件要求

为了让模型效果更好，你的音频文件最好满足这些条件：

格式：支持MP3、WAV、FLAC等常见格式
时长：建议不超过30秒，太长的音频可以分段处理
质量：尽量清晰的录音，背景噪音少一些
大小：单个文件最好在10MB以内

如果你的音频文件太大，可以用FFmpeg压缩一下：

# 压缩音频文件示例
ffmpeg -i input.mp3 -b:a 128k -ar 16000 output.mp3

4.2 提升识别准确率

有时候识别结果可能不太准，可以试试这些方法：

说清楚一点：录音时吐字清晰，语速适中
减少背景音：尽量在安静环境下录音
分段处理：长音频切成短片段，一段段识别
指定语言：明确告诉模型是什么语言，比如用<|zh|>表示中文

4.3 常见错误解决

问题1：内存不足

OutOfMemoryError: CUDA out of memory

解决：改用CPU运行，或者减少同时处理的音频数量。

问题2：下载模型慢

ConnectionError: Could not connect to Hugging Face

解决：用国内镜像，或者先手动下载模型文件。

问题3：音频格式不支持

ValueError: Unsupported audio format

解决：用FFmpeg转换格式：

ffmpeg -i input.m4a -acodec mp3 output.mp3

5. 实际应用场景

学会了基本用法，你可能会问：这玩意儿到底能用来干嘛？我举几个实际的例子：

场景1：会议记录自动化 你可以把会议录音扔给Qwen-Audio，它自动生成文字记录，还能提取关键信息。

场景2：语音笔记整理 平时用手机录的语音备忘录，批量转成文字，搜索起来方便多了。

场景3：多语言翻译 录一段中文，让模型转写成中文文字，再翻译成英文，一站式搞定。

场景4：音频内容分析 不只是转文字，还能分析说话人的情绪、背景声音是什么。

这里给个会议记录的例子：

def transcribe_meeting(audio_path):
    """将会议录音转写成文字"""
    query = tokenizer.from_list_format([
        {'audio': audio_path},
        {'text': '请将这段会议录音转写成文字，并提取出关键决策和行动项。'},
    ])
    
    response, _ = model.chat(tokenizer, query=query, history=None)
    return response

# 使用示例
meeting_text = transcribe_meeting("meeting_recording.mp3")
print("会议记录：\n", meeting_text)

6. 总结

整体用下来，Qwen-Audio给我的感觉是部署确实简单，跟着步骤走基本不会卡住。识别效果对于日常使用来说足够好了，特别是中文识别，准确率挺让人满意的。聊天功能是个亮点，不只是机械地转文字，还能理解内容、回答问题。

如果你刚接触语音识别，建议先从简单的例子开始，跑通了基本流程，再慢慢尝试更复杂的场景。比如先试试公开的测试音频，成功了再处理自己的录音文件。遇到问题不用急，大部分都是环境配置或者文件格式的小问题，查查文档或者搜索一下基本都能解决。

这个模型开源出来，对开发者来说是个挺好的工具。无论是做原型验证，还是集成到自己的项目里，都值得一试。当然它也不是完美的，比如对硬件要求不低，长音频处理需要自己分段，但这些在开源模型里算是常见的限制了。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

ChatGPT 5.5 辅助测试用例生成实践：从支付回调接口到可验证的研发流程

AI Agent技术社区

2026年如何用Gemini镜像站辅助学术写作？

把Gemini融入学术写作流程，能从文献处理、初稿打磨到格式校对等环节释放大量时间。对于国内研究者，选择像RskAi这样无需复杂网络配置、集成多款先进模型的镜像服务，让技术直接服务研究思维。想一站式体验不同模型在学术辅助上的侧重，可以访问，从一个小任务开始，逐步建立自己的AI辅助写作方法。【本文完】

AI Agent技术社区

AI 中转站：企业大模型应用中容易被忽视的安全关键点

2026年3月，墨西哥三人初创团队遭遇AI密钥盗用危机，团队月度常规Google Cloud费用仅180美元，攻击者盗取Gemini关联API密钥后，48小时疯狂调用模型接口，产生82314.44美元（约56.8万元）账单，费用暴涨近455倍，远超企业账户流动资金，团队濒临破产。此次事件叠加多重隐患：API密钥权限自动扩张、平台无异常调用风控告警、密钥缺少分级隔离，且企业全量AI模型调用流量，缺少