Qwen3-ASR-1.7B与Vue.js结合：构建语音识别Web应用

本文介绍了如何在星图GPU平台上自动化部署Qwen3-ASR-1.7B语音识别模型v2，快速构建语音交互Web应用。该方案结合Vue.js前端框架，实现实时语音转文字功能，典型应用于在线会议记录、语音笔记等场景，提升用户交互体验。

爱军习武

343人浏览 · 2026-02-25 00:45:43

爱军习武 · 2026-02-25 00:45:43 发布

Qwen3-ASR-1.7B与Vue.js结合：构建语音识别Web应用

1. 引言

想象一下，用户打开你的网站，不需要打字输入，只需对着麦克风说话，系统就能实时将语音转换为文字并执行相应操作。这种体验不仅自然流畅，还能大幅提升用户交互效率。随着Qwen3-ASR-1.7B语音识别模型的开源，现在我们可以轻松实现这样的功能。

Qwen3-ASR-1.7B是一个强大的多语言语音识别模型，支持52种语言和方言，识别准确率高，在嘈杂环境下也能保持稳定表现。而Vue.js作为现代前端开发的主流框架，以其响应式数据和组件化特性，成为构建交互式Web应用的理想选择。

本文将带你一步步实现将Qwen3-ASR-1.7B与Vue.js结合，构建一个功能完整的语音识别Web应用。无论你是前端开发者还是对AI应用感兴趣的工程师，都能从中获得实用的技术方案。

2. 技术架构设计

2.1 整体架构

我们的语音识别Web应用采用前后端分离架构：

前端(Vue.js) ↔ 后端(API服务器) ↔ Qwen3-ASR-1.7B模型

前端负责音频采集、用户界面交互和结果展示；后端处理音频数据、调用语音识别模型并返回识别结果；Qwen3-ASR-1.7B模型负责核心的语音转文字功能。

2.2 音频处理流程

语音识别应用的完整流程包括：

音频采集：通过浏览器麦克风API获取用户语音
音频预处理：转换格式、降噪、分段
传输到后端：通过WebSocket或HTTP API发送音频数据
模型推理：调用Qwen3-ASR-1.7B进行语音识别
结果返回：将识别文本返回前端
界面更新：实时显示识别结果

3. 前端实现

3.1 创建Vue.js项目

首先，我们使用Vue CLI创建一个新项目：

vue create voice-app
cd voice-app
npm install

3.2 音频采集组件

创建一个语音输入组件VoiceInput.vue：

<template>
  <div class="voice-input">
    <button 
      @mousedown="startRecording"
      @mouseup="stopRecording"
      @touchstart="startRecording"
      @touchend="stopRecording"
      :class="{ 'recording': isRecording }"
    >
      {{ isRecording ? '录音中...' : '按住说话' }}
    </button>
    <div v-if="transcript" class="result">
      <p>识别结果: {{ transcript }}</p>
    </div>
  </div>
</template>

<script>
export default {
  name: 'VoiceInput',
  data() {
    return {
      isRecording: false,
      mediaRecorder: null,
      audioChunks: [],
      transcript: '',
      socket: null
    }
  },
  methods: {
    async startRecording() {
      try {
        const stream = await navigator.mediaDevices.getUserMedia({ audio: true });
        this.mediaRecorder = new MediaRecorder(stream);
        this.audioChunks = [];
        
        this.mediaRecorder.ondataavailable = (event) => {
          this.audioChunks.push(event.data);
        };
        
        this.mediaRecorder.onstop = this.sendAudioToServer;
        
        this.mediaRecorder.start();
        this.isRecording = true;
      } catch (error) {
        console.error('无法访问麦克风:', error);
      }
    },
    
    stopRecording() {
      if (this.mediaRecorder && this.isRecording) {
        this.mediaRecorder.stop();
        this.isRecording = false;
        
        // 停止所有音频轨道
        this.mediaRecorder.stream.getTracks().forEach(track => track.stop());
      }
    },
    
    async sendAudioToServer() {
      const audioBlob = new Blob(this.audioChunks, { type: 'audio/wav' });
      
      try {
        const formData = new FormData();
        formData.append('audio', audioBlob, 'recording.wav');
        
        const response = await fetch('http://localhost:3000/api/transcribe', {
          method: 'POST',
          body: formData
        });
        
        const result = await response.json();
        this.transcript = result.text;
        this.$emit('transcription', result.text);
      } catch (error) {
        console.error('识别请求失败:', error);
      }
    }
  }
}
</script>

<style scoped>
.voice-input {
  text-align: center;
  padding: 20px;
}

button {
  padding: 15px 30px;
  font-size: 16px;
  border: none;
  border-radius: 25px;
  background-color: #4CAF50;
  color: white;
  cursor: pointer;
  transition: background-color 0.3s;
}

button.recording {
  background-color: #f44336;
  animation: pulse 1.5s infinite;
}

@keyframes pulse {
  0% { transform: scale(1); }
  50% { transform: scale(1.05); }
  100% { transform: scale(1); }
}

.result {
  margin-top: 20px;
  padding: 15px;
  background-color: #f5f5f5;
  border-radius: 8px;
}
</style>

3.3 实时语音识别界面

创建主界面组件，展示实时识别效果：

<template>
  <div class="app-container">
    <h1>语音识别应用</h1>
    <div class="controls">
      <VoiceInput @transcription="handleTranscription" />
      <div class="language-selector">
        <label for="language">选择语言: </label>
        <select id="language" v-model="selectedLanguage">
          <option value="zh">中文</option>
          <option value="en">英语</option>
          <option value="ja">日语</option>
          <option value="ko">韩语</option>
        </select>
      </div>
    </div>
    
    <div class="transcript-container">
      <h2>识别结果</h2>
      <div class="transcript">
        {{ fullTranscript }}
      </div>
    </div>
    
    <div class="action-buttons">
      <button @click="clearTranscript">清空</button>
      <button @click="copyToClipboard">复制文本</button>
    </div>
  </div>
</template>

<script>
import VoiceInput from './components/VoiceInput.vue'

export default {
  name: 'App',
  components: {
    VoiceInput
  },
  data() {
    return {
      selectedLanguage: 'zh',
      fullTranscript: ''
    }
  },
  methods: {
    handleTranscription(text) {
      this.fullTranscript += text + ' ';
    },
    clearTranscript() {
      this.fullTranscript = '';
    },
    async copyToClipboard() {
      try {
        await navigator.clipboard.writeText(this.fullTranscript);
        alert('文本已复制到剪贴板');
      } catch (error) {
        console.error('复制失败:', error);
      }
    }
  }
}
</script>

<style>
.app-container {
  max-width: 800px;
  margin: 0 auto;
  padding: 20px;
  font-family: Arial, sans-serif;
}

.controls {
  margin-bottom: 30px;
  text-align: center;
}

.language-selector {
  margin-top: 15px;
}

.transcript-container {
  margin: 20px 0;
}

.transcript {
  min-height: 150px;
  padding: 15px;
  border: 1px solid #ddd;
  border-radius: 8px;
  background-color: #f9f9f9;
  white-space: pre-wrap;
}

.action-buttons {
  display: flex;
  gap: 10px;
  justify-content: center;
}

.action-buttons button {
  padding: 10px 20px;
  border: none;
  border-radius: 5px;
  background-color: #2196F3;
  color: white;
  cursor: pointer;
}

.action-buttons button:hover {
  background-color: #0b7dda;
}
</style>

4. 后端API实现

4.1 设置Express服务器

创建后端服务器处理音频文件和调用Qwen3-ASR模型：

const express = require('express');
const multer = require('multer');
const cors = require('cors');
const fs = require('fs');
const path = require('path');
const { spawn } = require('child_process');

const app = express();
const upload = multer({ dest: 'uploads/' });

app.use(cors());
app.use(express.json());

// Qwen3-ASR模型调用函数
async function transcribeAudio(audioPath) {
  return new Promise((resolve, reject) => {
    // 这里使用Python调用Qwen3-ASR模型
    const pythonProcess = spawn('python', ['transcribe.py', audioPath]);
    
    let result = '';
    let error = '';
    
    pythonProcess.stdout.on('data', (data) => {
      result += data.toString();
    });
    
    pythonProcess.stderr.on('data', (data) => {
      error += data.toString();
    });
    
    pythonProcess.on('close', (code) => {
      if (code === 0) {
        resolve(result.trim());
      } else {
        reject(new Error(`Python process exited with code ${code}: ${error}`));
      }
    });
  });
}

// 语音识别API端点
app.post('/api/transcribe', upload.single('audio'), async (req, res) => {
  try {
    if (!req.file) {
      return res.status(400).json({ error: '没有上传音频文件' });
    }
    
    const audioPath = req.file.path;
    const transcription = await transcribeAudio(audioPath);
    
    // 清理上传的文件
    fs.unlinkSync(audioPath);
    
    res.json({ 
      success: true, 
      text: transcription,
      language: 'auto-detected'
    });
  } catch (error) {
    console.error('识别错误:', error);
    res.status(500).json({ 
      error: '语音识别失败',
      details: error.message 
    });
  }
});

// 健康检查端点
app.get('/api/health', (req, res) => {
  res.json({ status: 'OK', model: 'Qwen3-ASR-1.7B' });
});

const PORT = process.env.PORT || 3000;
app.listen(PORT, () => {
  console.log(`服务器运行在端口 ${PORT}`);
});

4.2 Python语音识别脚本

创建transcribe.py处理音频转录：

#!/usr/bin/env python3
import sys
import argparse
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
import torch
import librosa

def main(audio_path):
    # 加载Qwen3-ASR模型和处理器
    model_id = "Qwen/Qwen3-ASR-1.7B"
    
    # 初始化模型（实际使用时需要根据模型文档调整）
    model = AutoModelForSpeechSeq2Seq.from_pretrained(
        model_id,
        torch_dtype=torch.float16,
        device_map="auto"
    )
    
    processor = AutoProcessor.from_pretrained(model_id)
    
    # 加载音频文件
    audio_input, sampling_rate = librosa.load(audio_path, sr=16000)
    
    # 处理音频输入
    inputs = processor(
        audio_input, 
        sampling_rate=sampling_rate, 
        return_tensors="pt",
        padding=True
    )
    
    # 将输入移动到GPU（如果可用）
    inputs = {k: v.to(model.device) for k, v in inputs.items()}
    
    # 执行语音识别
    with torch.no_grad():
        output = model.generate(**inputs)
    
    # 解码输出
    transcription = processor.batch_decode(output, skip_special_tokens=True)[0]
    
    print(transcription)

if __name__ == "__main__":
    parser = argparse.ArgumentParser(description='语音识别脚本')
    parser.add_argument('audio_path', help='音频文件路径')
    args = parser.parse_args()
    
    main(args.audio_path)

5. 性能优化与实践建议

5.1 前端优化技巧

音频流式传输：使用WebSocket实现实时音频流传输，减少延迟
音频压缩：在客户端对音频进行压缩，减少传输数据量
离线语音检测：实现VAD（语音活动检测），只在有语音时传输数据

// WebSocket实时音频传输示例
setupWebSocket() {
  this.socket = new WebSocket('ws://localhost:3000/ws/audio');
  
  this.socket.onopen = () => {
    console.log('WebSocket连接已建立');
  };
  
  this.socket.onmessage = (event) => {
    const result = JSON.parse(event.data);
    this.transcript = result.text;
  };
  
  // 实时发送音频数据
  this.mediaRecorder.ondataavailable = (event) => {
    if (this.socket.readyState === WebSocket.OPEN) {
      event.data.arrayBuffer().then(buffer => {
        this.socket.send(buffer);
      });
    }
  };
}

5.2 后端优化策略

模型缓存：保持模型常驻内存，避免重复加载
批处理：支持批量音频处理，提高吞吐量
GPU加速：利用CUDA加速模型推理

5.3 用户体验优化

实时反馈：提供视觉反馈表明系统正在处理
错误处理：优雅处理麦克风权限拒绝等情况
多语言支持：利用Qwen3-ASR的多语言能力支持国际化

6. 部署与扩展

6.1 生产环境部署

对于生产环境，建议使用Docker容器化部署：

# 前端Dockerfile
FROM node:16 as build-stage
WORKDIR /app
COPY package*.json ./
RUN npm install
COPY . .
RUN npm run build

FROM nginx:alpine
COPY --from=build-stage /app/dist /usr/share/nginx/html
COPY nginx.conf /etc/nginx/nginx.conf

# 后端Dockerfile
FROM python:3.9-slim
WORKDIR /app
COPY requirements.txt .
RUN pip install -r requirements.txt
COPY . .
EXPOSE 3000
CMD ["python", "app.py"]

6.2 扩展可能性

语音命令系统：扩展为语音控制的Web应用
实时翻译：结合翻译API实现实时语音翻译
语音助手：开发完整的浏览器内语音助手
无障碍功能：为视障用户提供语音导航功能

7. 总结

将Qwen3-ASR-1.7B与Vue.js结合，为我们打开了构建语音交互Web应用的大门。通过本文介绍的方案，你可以快速搭建一个功能完整的语音识别应用，享受语音技术带来的便利。

实际开发中，这种组合展现出了很好的灵活性。Vue.js的响应式特性让界面更新变得简单直观，而Qwen3-ASR-1.7B的强大识别能力确保了准确的语音转文字效果。无论是做会议记录工具、语音笔记应用，还是更复杂的语音交互系统，这个技术栈都能提供可靠的基础。

需要注意的是，语音识别应用对网络环境和音频质量比较敏感，在实际部署时可能需要根据具体场景调整参数和优化策略。另外，考虑到模型大小和计算需求，对于资源受限的环境，可以考虑使用Qwen3-ASR-0.6B这个更轻量的版本。

希望本文能为你开发语音识别应用提供有用的参考。随着Web语音API的不断进化和大模型能力的提升，语音交互在Web应用中的潜力将会越来越大。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

Agent 工程中的模型缓存优化经验分享

AI Agent技术社区

CC-Switch不只是切换API：从GitHub更新日志看懂它的功能和底层原理

CC Switch：从配置切换器到AI编程统一管理平台摘要： CC Switch已从最初的Claude Code/Codex供应商切换工具，发展为功能全面的AI编程管理平台。它通过统一界面管理多个AI编程工具（Claude Code、Codex、Gemini CLI等）的配置，支持供应商切换、本地代理路由、跨工具能力同步等功能。核心演进包括：采用SSOT架构集中管理供应商数据、扩展支持6+工具、

AI Agent技术社区

转载--Hermes Agent 05 | 记忆系统（上）：内置记忆的冻结快照模式与 agent-curated 策展

找到匹配的会话后，不是直接把原始对话扔回给主模型——那太长了。它用一个辅助模型（Gemini Flash）对每个匹配的会话做摘要（）：加载匹配会话的完整对话记录以匹配位置为中心，截断到 ~100,000 字符（发给 Gemini Flash，用一个聚焦的 summarization prompt 生成摘要返回带元数据的摘要结果用便宜的辅助模型（Gemini Flash）来压缩长对话，再把短摘要喂给