如何使用Handy语音转文本工具:离线语音识别的完整指南
Handy是一款免费、开源且可扩展的语音转文本应用程序,完全离线工作。它是一个跨平台桌面应用程序,提供简单、注重隐私的语音转录功能。按下快捷键,说话,您的文字就会出现在任何文本字段中。这一切都在您自己的计算机上完成,不会将任何信息发送到云端。[
- 说话当快捷键处于活动状态时说出您的话
- 释放后,Handy使用Whisper处理您的语音
- 获取转录文本直接粘贴到您正在使用的任何应用程序中
整个过程完全在本地进行:
- 使用Silero的VAD(语音活动检测)过滤静音
- 转录使用您选择的模型:
- Whisper模型(Small/Medium/Turbo/Large),在可用时支持GPU加速
- Parakeet V3 - CPU优化模型,具有出色的性能和自动语言检测
- 适用于Windows、macOS和Linux
Handy语音转文本工作流程示意图,展示了从语音输入到文本输出的全过程
Handy语音转文本工具的快速入门
安装步骤
- 从发布页面或网站下载最新版本
- macOS:也可通过Homebrew cask获取:
brew install --cask handy
- macOS:也可通过Homebrew cask获取:
- 安装应用程序
- 启动Handy并授予必要的系统权限(麦克风、辅助功能)
- 在设置中配置您喜欢的键盘快捷键
- 开始转录!
开发设置
有关包括特定平台要求在内的详细构建说明,请参见BUILD.md。
Handy的架构
Handy是作为Tauri应用程序构建的,结合了:
- 前端:React + TypeScript与Tailwind CSS用于设置UI
- 后端:Rust用于系统集成、音频处理和ML推理
- 核心库:
whisper-rs:使用Whisper模型进行本地语音识别transcription-rs:使用Parakeet模型进行CPU优化的语音识别cpal:跨平台音频I/Ovad-rs:语音活动检测rdev:全局键盘快捷键和系统事件rubato:音频重采样
调试模式
Handy包含高级调试模式,用于开发和故障排除。通过按以下键访问:
- macOS:
Cmd+Shift+D - Windows/Linux:
Ctrl+Shift+D
Handy语音转文本工具的系统要求
以下是在您自己的机器上运行Handy的建议。如果您不满足系统要求,应用程序的性能可能会下降。我们正在努力提高各种计算机和硬件的性能。
对于Whisper模型:
- macOS:M系列Mac,Intel Mac
- Windows:Intel、AMD或NVIDIA GPU
- Linux:Intel、AMD或NVIDIA GPU
- Ubuntu 22.04,24.04
对于Parakeet V3模型:
- 仅CPU操作 - 在各种硬件上运行
- 最低要求:Intel Skylake(第6代)或同等AMD处理器
- 性能:在中端硬件上约为实时速度的5倍(在i5上测试)
- 自动语言检测 - 无需手动选择语言
Wordcab支持的Handy语音转文本工具,提供高质量的语音识别服务
Handy的故障排除
手动模型安装(适用于代理用户或网络限制)
如果您处于代理、防火墙或受限制的网络环境中,Handy无法自动下载模型,您可以手动下载和安装它们。URL可从任何浏览器公开访问。
步骤1:找到您的应用数据目录
- 打开Handy设置
- 导航到关于部分
- 复制显示的"应用数据目录"路径,或使用快捷键:
- macOS:
Cmd+Shift+D打开调试菜单 - Windows/Linux:
Ctrl+Shift+D打开调试菜单
- macOS:
典型路径为:
- macOS:
~/Library/Application Support/com.pais.handy/ - Windows:
C:\Users\{username}\AppData\Roaming\com.pais.handy\ - Linux:
~/.config/com.pais.handy/
步骤2:创建模型目录
在您的应用数据目录中,如果尚不存在,创建一个models文件夹:
# macOS/Linux
mkdir -p ~/Library/Application\ Support/com.pais.handy/models
# Windows (PowerShell)
New-Item -ItemType Directory -Force -Path "$env:APPDATA\com.pais.handy\models"
步骤3:下载模型文件
从下面下载您想要的模型
Whisper模型(单个.bin文件):
- Small (487 MB):
https://blob.handy.computer/ggml-small.bin - Medium (492 MB):
https://blob.handy.computer/whisper-medium-q4_1.bin - Turbo (1600 MB):
https://blob.handy.computer/ggml-large-v3-turbo.bin - Large (1100 MB):
https://blob.handy.computer/ggml-large-v3-q5_0.bin
Parakeet模型(压缩档案):
- V2 (473 MB):
https://blob.handy.computer/parakeet-v2-int8.tar.gz - V3 (478 MB):
https://blob.handy.computer/parakeet-v3-int8.tar.gz
步骤4:安装模型
对于Whisper模型(.bin文件):
只需将.bin文件直接放入models目录:
{app_data_dir}/models/
├── ggml-small.bin
├── whisper-medium-q4_1.bin
├── ggml-large-v3-turbo.bin
└── ggml-large-v3-q5_0.bin
对于Parakeet模型(.tar.gz档案):
- 提取.tar.gz文件
- 将提取的目录放入
models文件夹 - 目录必须精确命名如下:
- Parakeet V2:
parakeet-tdt-0.6b-v2-int8 - Parakeet V3:
parakeet-tdt-0.6b-v3-int8
- Parakeet V2:
最终结构应如下所示:
{app_data_dir}/models/
├── parakeet-tdt-0.6b-v2-int8/ (包含模型文件的目录)
│ ├── (模型文件)
│ └── (配置文件)
└── parakeet-tdt-0.6b-v3-int8/ (包含模型文件的目录)
├── (模型文件)
└── (配置文件)
重要说明:
- 对于Parakeet模型,提取的目录名称必须与上面显示的完全匹配
- 不要重命名Whisper模型的.bin文件——使用下载URL中的精确文件名
- 放置文件后,重新启动Handy以检测新模型
步骤5:验证安装
- 重新启动Handy
- 打开设置→模型
- 您手动安装的模型现在应显示为"已下载"
- 选择您要使用的模型并测试转录
如何贡献
- 查看现有问题:github.com/cjpais/Handy/issues
- 分叉仓库并创建功能分支
- 在目标平台上彻底测试
- 提交拉取请求,并清晰描述更改
- 加入讨论 - 通过contact@handy.computer联系
目标是创建一个有用的工具和其他人可以构建的基础——一个模式良好、简单的代码库,为社区服务。
总结
Handy语音转文本工具为用户提供了一个免费、开源、隐私保护的离线语音识别解决方案。通过简单的安装和设置,您可以快速开始使用语音转文本功能,而不必担心数据隐私问题。无论是为了提高工作效率,还是为了辅助功能需求,Handy都是一个值得尝试的优秀工具。
您寻找合适的语音转文本工具的旅程可以在这里结束——不是因为Handy是完美的,而是因为您可以使其成为完美的工具。
更多推荐

所有评论(0)