构建高效语音识别API的终极解决方案：Whisper ASR Webservice详解

Whisper ASR Webservice是基于OpenAI Whisper构建的语音识别API服务，提供快速、准确的语音转文字功能，支持多语言识别、实时转录和多种输出格式。无论是开发语音助手、会议记录工具还是字幕生成系统，这个开源项目都能帮助你轻松实现专业级语音识别功能。## 为什么选择Whisper ASR Webservice？### ✅ 强大的语音识别能力基于OpenAI Wh

白秦朔Beneficient

413人浏览 · 2026-04-30 12:54:30

白秦朔Beneficient · 2026-04-30 12:54:30 发布

构建高效语音识别API的终极解决方案：Whisper ASR Webservice详解

【免费下载链接】whisper-asr-webservice OpenAI Whisper ASR Webservice API 项目地址: https://gitcode.com/gh_mirrors/wh/whisper-asr-webservice

Whisper ASR Webservice是基于OpenAI Whisper构建的语音识别API服务，提供快速、准确的语音转文字功能，支持多语言识别、实时转录和多种输出格式。无论是开发语音助手、会议记录工具还是字幕生成系统，这个开源项目都能帮助你轻松实现专业级语音识别功能。

为什么选择Whisper ASR Webservice？

✅ 强大的语音识别能力

基于OpenAI Whisper模型，支持99种语言的语音识别和翻译，提供从tiny到large-v3多种模型选择，平衡识别 accuracy 和速度需求。

✅ 灵活的部署选项

支持CPU、GPU多种部署方式，通过Docker容器化部署，几分钟内即可搭建完成属于自己的语音识别服务。

✅ 丰富的功能特性

支持语音转文字（transcribe）和语音翻译（translate）两种模式
多种输出格式：文本、JSON、VTT字幕、SRT字幕和TSV时间戳
可选的说话人分离（diarization）功能
语音活动检测（VAD）过滤非语音内容

快速开始：3分钟搭建语音识别服务

一键安装步骤

CPU部署（适用于大多数服务器）

docker pull onerahmet/openai-whisper-asr-webservice:latest
docker run -d -p 9000:9000 \
  -e ASR_MODEL=base \
  -e ASR_ENGINE=openai_whisper \
  onerahmet/openai-whisper-asr-webservice:latest

GPU加速部署（适用于高性能需求）

docker pull onerahmet/openai-whisper-asr-webservice:latest-gpu
docker run -d --gpus all -p 9000:9000 \
  -e ASR_MODEL=base \
  -e ASR_ENGINE=openai_whisper \
  onerahmet/openai-whisper-asr-webservice:latest-gpu

服务启动后，访问 http://localhost:9000/docs 即可使用交互式API文档。

图：Whisper ASR Webservice的Swagger UI界面，可直接测试语音识别API

核心功能详解

支持多种语音识别引擎

项目提供三种引擎选择，可通过ASR_ENGINE环境变量配置：

openai_whisper：官方Whisper实现，兼容性好
```
export ASR_ENGINE=openai_whisper
```
faster_whisper：优化版Whisper，速度提升2-4倍
```
export ASR_ENGINE=faster_whisper
```
whisperx：支持说话人分离和更精确的时间戳
```
export ASR_ENGINE=whisperx
```

灵活的模型选择

根据需求选择不同大小的模型，平衡速度和准确性：

export ASR_MODEL=base  # 默认模型

可用模型包括：

标准模型：tiny, base, small, medium, large-v1, large-v2, large-v3
英文优化模型：tiny.en, base.en, small.en, medium.en
蒸馏模型：distil-large-v2, distil-medium.en（仅适用于faster-whisper和whisperx）

实用的API端点

1. 语音识别端点 `/asr`

支持多种参数配置，满足不同场景需求：

curl -X POST -H "content-type: multipart/form-data" -F "audio_file=@/path/to/audio.wav" "0.0.0.0:9000/asr?output=json&task=transcribe&language=en"

主要参数：

output：输出格式（text/json/vtt/srt/tsv）
task：任务类型（transcribe/translate）
language：语言代码（如en/zh/fr）
word_timestamps：启用单词级时间戳
vad_filter：启用语音活动检测过滤

2. 语言检测端点 `/detect-language`

快速检测音频中的语言：

curl -X POST -H "content-type: multipart/form-data" -F "audio_file=@/path/to/audio.wav" "0.0.0.0:9000/detect-language"

返回结果示例：

{
    "detected_language": "english",
    "language_code": "en",
    "confidence": 0.98
}

高级配置指南

自定义模型路径

通过ASR_MODEL_PATH指定模型存储路径，避免重复下载：

docker run -d -p 9000:9000 \
  -e ASR_MODEL_PATH=/data/whisper \
  -v $PWD/cache:/data/whisper \
  onerahmet/openai-whisper-asr-webservice:latest

设备和量化配置

根据硬件情况调整设备和量化精度：

export ASR_DEVICE=cuda  # 或 'cpu'
export ASR_QUANTIZATION=float16  # 或 'float32', 'int8'

float32：高精度，速度较慢
float16：中等精度，速度较快（GPU推荐）
int8：低精度，速度最快（CPU推荐）

说话人分离配置（WhisperX）

启用说话人分离功能，识别多说话人对话：

export HF_TOKEN=your_huggingface_token

API请求示例：

0.0.0.0:9000/asr?output=json&diarize=true&min_speakers=2&max_speakers=4

官方文档与资源

完整文档：docs/
环境变量配置：docs/environmental-variables.md
API端点详情：docs/endpoints.md

Whisper ASR Webservice为开发者提供了一个快速、可靠的语音识别解决方案，无论是小型项目还是企业级应用，都能满足你的语音识别需求。立即部署体验，开启高效语音处理之旅！

【免费下载链接】whisper-asr-webservice OpenAI Whisper ASR Webservice API 项目地址: https://gitcode.com/gh_mirrors/wh/whisper-asr-webservice

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

DeepSeek总结的展望 Postgres 19：查询提示

文章摘要： Postgres 19 将引入查询提示功能，通过新增的 pg_plan_advice 和 pg_stash_advice 模块实现。这一功能结束了 Postgres 社区长期以来的争论，为 DBA 提供了优化查询的灵活工具。pg_plan_advice 允许通过 GUC 或独立存储区设置建议，约束而非替代规划器的决策，确保错误建议能优雅降级。pg_stash_advice 则支持将建议