构建高效语音识别API的终极解决方案:Whisper ASR Webservice详解

【免费下载链接】whisper-asr-webservice OpenAI Whisper ASR Webservice API 【免费下载链接】whisper-asr-webservice 项目地址: https://gitcode.com/gh_mirrors/wh/whisper-asr-webservice

Whisper ASR Webservice是基于OpenAI Whisper构建的语音识别API服务,提供快速、准确的语音转文字功能,支持多语言识别、实时转录和多种输出格式。无论是开发语音助手、会议记录工具还是字幕生成系统,这个开源项目都能帮助你轻松实现专业级语音识别功能。

为什么选择Whisper ASR Webservice?

✅ 强大的语音识别能力

基于OpenAI Whisper模型,支持99种语言的语音识别和翻译,提供从tinylarge-v3多种模型选择,平衡识别 accuracy 和速度需求。

✅ 灵活的部署选项

支持CPU、GPU多种部署方式,通过Docker容器化部署,几分钟内即可搭建完成属于自己的语音识别服务。

✅ 丰富的功能特性

  • 支持语音转文字(transcribe)和语音翻译(translate)两种模式
  • 多种输出格式:文本、JSON、VTT字幕、SRT字幕和TSV时间戳
  • 可选的说话人分离(diarization)功能
  • 语音活动检测(VAD)过滤非语音内容

快速开始:3分钟搭建语音识别服务

一键安装步骤

CPU部署(适用于大多数服务器)
docker pull onerahmet/openai-whisper-asr-webservice:latest
docker run -d -p 9000:9000 \
  -e ASR_MODEL=base \
  -e ASR_ENGINE=openai_whisper \
  onerahmet/openai-whisper-asr-webservice:latest
GPU加速部署(适用于高性能需求)
docker pull onerahmet/openai-whisper-asr-webservice:latest-gpu
docker run -d --gpus all -p 9000:9000 \
  -e ASR_MODEL=base \
  -e ASR_ENGINE=openai_whisper \
  onerahmet/openai-whisper-asr-webservice:latest-gpu

服务启动后,访问 http://localhost:9000/docs 即可使用交互式API文档。

Whisper ASR Webservice Swagger UI界面 图:Whisper ASR Webservice的Swagger UI界面,可直接测试语音识别API

核心功能详解

支持多种语音识别引擎

项目提供三种引擎选择,可通过ASR_ENGINE环境变量配置:

  • openai_whisper:官方Whisper实现,兼容性好

    export ASR_ENGINE=openai_whisper
    
  • faster_whisper:优化版Whisper,速度提升2-4倍

    export ASR_ENGINE=faster_whisper
    
  • whisperx:支持说话人分离和更精确的时间戳

    export ASR_ENGINE=whisperx
    

灵活的模型选择

根据需求选择不同大小的模型,平衡速度和准确性:

export ASR_MODEL=base  # 默认模型

可用模型包括:

  • 标准模型:tiny, base, small, medium, large-v1, large-v2, large-v3
  • 英文优化模型:tiny.en, base.en, small.en, medium.en
  • 蒸馏模型:distil-large-v2, distil-medium.en(仅适用于faster-whisper和whisperx)

实用的API端点

1. 语音识别端点 /asr

支持多种参数配置,满足不同场景需求:

curl -X POST -H "content-type: multipart/form-data" -F "audio_file=@/path/to/audio.wav" "0.0.0.0:9000/asr?output=json&task=transcribe&language=en"

主要参数:

  • output:输出格式(text/json/vtt/srt/tsv)
  • task:任务类型(transcribe/translate)
  • language:语言代码(如en/zh/fr)
  • word_timestamps:启用单词级时间戳
  • vad_filter:启用语音活动检测过滤
2. 语言检测端点 /detect-language

快速检测音频中的语言:

curl -X POST -H "content-type: multipart/form-data" -F "audio_file=@/path/to/audio.wav" "0.0.0.0:9000/detect-language"

返回结果示例:

{
    "detected_language": "english",
    "language_code": "en",
    "confidence": 0.98
}

高级配置指南

自定义模型路径

通过ASR_MODEL_PATH指定模型存储路径,避免重复下载:

docker run -d -p 9000:9000 \
  -e ASR_MODEL_PATH=/data/whisper \
  -v $PWD/cache:/data/whisper \
  onerahmet/openai-whisper-asr-webservice:latest

设备和量化配置

根据硬件情况调整设备和量化精度:

export ASR_DEVICE=cuda  # 或 'cpu'
export ASR_QUANTIZATION=float16  # 或 'float32', 'int8'
  • float32:高精度,速度较慢
  • float16:中等精度,速度较快(GPU推荐)
  • int8:低精度,速度最快(CPU推荐)

说话人分离配置(WhisperX)

启用说话人分离功能,识别多说话人对话:

export HF_TOKEN=your_huggingface_token

API请求示例:

0.0.0.0:9000/asr?output=json&diarize=true&min_speakers=2&max_speakers=4

官方文档与资源

Whisper ASR Webservice为开发者提供了一个快速、可靠的语音识别解决方案,无论是小型项目还是企业级应用,都能满足你的语音识别需求。立即部署体验,开启高效语音处理之旅!

【免费下载链接】whisper-asr-webservice OpenAI Whisper ASR Webservice API 【免费下载链接】whisper-asr-webservice 项目地址: https://gitcode.com/gh_mirrors/wh/whisper-asr-webservice

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐