如何使用Handy语音转文本工具：离线语音识别的完整指南

Handy是一款免费、开源且可扩展的语音转文本应用程序，完全离线工作。它是一个跨平台桌面应用程序，提供简单、注重隐私的语音转录功能。按下快捷键，说话，您的文字就会出现在任何文本字段中。这一切都在您自己的计算机上完成，不会将任何信息发送到云端。[![Handy应用程序图标](https://raw.gitcode.com/GitHub_Trending/handy11/Handy/raw/785

郭沁熙

761人浏览 · 2026-03-11 05:14:52

郭沁熙 · 2026-03-11 05:14:52 发布

如何使用Handy语音转文本工具：离线语音识别的完整指南

【免费下载链接】Handy A free, open source, and extensible speech-to-text application that works completely offline. 项目地址: https://gitcode.com/GitHub_Trending/handy11/Handy

Handy是一款免费、开源且可扩展的语音转文本应用程序，完全离线工作。它是一个跨平台桌面应用程序，提供简单、注重隐私的语音转录功能。按下快捷键，说话，您的文字就会出现在任何文本字段中。这一切都在您自己的计算机上完成，不会将任何信息发送到云端。

Handy应用程序图标，展示了友好的手势设计

为什么选择Handy语音转文本工具？

Handy的创建是为了填补真正开源、可扩展的语音转文本工具的空白。正如handy.computer所述：

免费：辅助工具应该掌握在每个人手中，而不是被付费墙阻挡
开源：我们可以共同进一步发展。为自己扩展Handy，并为更大的项目做出贡献
隐私：您的声音留在您的计算机上。无需将音频发送到云端即可获得转录
简单：一个工具，一个工作。转录您所说的内容并将其放入文本框

Handy并不试图成为最好的语音转文本应用程序——它试图成为最可分叉的应用程序。

Handy语音转文本工具的工作原理

按下可配置的键盘快捷键开始/停止录制（或使用按键通话模式）
说话当快捷键处于活动状态时说出您的话
释放后，Handy使用Whisper处理您的语音
获取转录文本直接粘贴到您正在使用的任何应用程序中

整个过程完全在本地进行：

使用Silero的VAD（语音活动检测）过滤静音
转录使用您选择的模型：
- Whisper模型（Small/Medium/Turbo/Large），在可用时支持GPU加速
- Parakeet V3 - CPU优化模型，具有出色的性能和自动语言检测
适用于Windows、macOS和Linux

Handy语音转文本工作流程示意图，展示了从语音输入到文本输出的全过程

Handy语音转文本工具的快速入门

安装步骤

从发布页面或网站下载最新版本
- macOS：也可通过Homebrew cask获取：brew install --cask handy
安装应用程序
启动Handy并授予必要的系统权限（麦克风、辅助功能）
在设置中配置您喜欢的键盘快捷键
开始转录！

开发设置

有关包括特定平台要求在内的详细构建说明，请参见BUILD.md。

Handy的架构

Handy是作为Tauri应用程序构建的，结合了：

前端：React + TypeScript与Tailwind CSS用于设置UI
后端：Rust用于系统集成、音频处理和ML推理
核心库：
- whisper-rs：使用Whisper模型进行本地语音识别
- transcription-rs：使用Parakeet模型进行CPU优化的语音识别
- cpal：跨平台音频I/O
- vad-rs：语音活动检测
- rdev：全局键盘快捷键和系统事件
- rubato：音频重采样

调试模式

Handy包含高级调试模式，用于开发和故障排除。通过按以下键访问：

macOS：Cmd+Shift+D
Windows/Linux：Ctrl+Shift+D

Handy语音转文本工具的系统要求

以下是在您自己的机器上运行Handy的建议。如果您不满足系统要求，应用程序的性能可能会下降。我们正在努力提高各种计算机和硬件的性能。

对于Whisper模型：

macOS：M系列Mac，Intel Mac
Windows：Intel、AMD或NVIDIA GPU
Linux：Intel、AMD或NVIDIA GPU
- Ubuntu 22.04，24.04

对于Parakeet V3模型：

仅CPU操作 - 在各种硬件上运行
最低要求：Intel Skylake（第6代）或同等AMD处理器
性能：在中端硬件上约为实时速度的5倍（在i5上测试）
自动语言检测 - 无需手动选择语言

Wordcab支持的Handy语音转文本工具，提供高质量的语音识别服务

Handy的故障排除

手动模型安装（适用于代理用户或网络限制）

如果您处于代理、防火墙或受限制的网络环境中，Handy无法自动下载模型，您可以手动下载和安装它们。URL可从任何浏览器公开访问。

步骤1：找到您的应用数据目录

打开Handy设置
导航到关于部分
复制显示的"应用数据目录"路径，或使用快捷键：
- macOS：Cmd+Shift+D打开调试菜单
- Windows/Linux：Ctrl+Shift+D打开调试菜单

典型路径为：

macOS：~/Library/Application Support/com.pais.handy/
Windows：C:\Users\{username}\AppData\Roaming\com.pais.handy\
Linux：~/.config/com.pais.handy/

步骤2：创建模型目录

在您的应用数据目录中，如果尚不存在，创建一个models文件夹：

# macOS/Linux
mkdir -p ~/Library/Application\ Support/com.pais.handy/models

# Windows (PowerShell)
New-Item -ItemType Directory -Force -Path "$env:APPDATA\com.pais.handy\models"

步骤3：下载模型文件

从下面下载您想要的模型

Whisper模型（单个.bin文件）：

Small (487 MB)：https://blob.handy.computer/ggml-small.bin
Medium (492 MB)：https://blob.handy.computer/whisper-medium-q4_1.bin
Turbo (1600 MB)：https://blob.handy.computer/ggml-large-v3-turbo.bin
Large (1100 MB)：https://blob.handy.computer/ggml-large-v3-q5_0.bin

Parakeet模型（压缩档案）：

V2 (473 MB)：https://blob.handy.computer/parakeet-v2-int8.tar.gz
V3 (478 MB)：https://blob.handy.computer/parakeet-v3-int8.tar.gz

步骤4：安装模型

对于Whisper模型（.bin文件）：

只需将.bin文件直接放入models目录：

{app_data_dir}/models/
├── ggml-small.bin
├── whisper-medium-q4_1.bin
├── ggml-large-v3-turbo.bin
└── ggml-large-v3-q5_0.bin

对于Parakeet模型（.tar.gz档案）：

提取.tar.gz文件
将提取的目录放入models文件夹
目录必须精确命名如下：
- Parakeet V2：parakeet-tdt-0.6b-v2-int8
- Parakeet V3：parakeet-tdt-0.6b-v3-int8

最终结构应如下所示：

{app_data_dir}/models/
├── parakeet-tdt-0.6b-v2-int8/     (包含模型文件的目录)
│   ├── (模型文件)
│   └── (配置文件)
└── parakeet-tdt-0.6b-v3-int8/     (包含模型文件的目录)
    ├── (模型文件)
    └── (配置文件)

重要说明：

对于Parakeet模型，提取的目录名称必须与上面显示的完全匹配
不要重命名Whisper模型的.bin文件——使用下载URL中的精确文件名
放置文件后，重新启动Handy以检测新模型

步骤5：验证安装

重新启动Handy
打开设置→模型
您手动安装的模型现在应显示为"已下载"
选择您要使用的模型并测试转录

如何贡献

查看现有问题：github.com/cjpais/Handy/issues
分叉仓库并创建功能分支
在目标平台上彻底测试
提交拉取请求，并清晰描述更改
加入讨论 - 通过contact@handy.computer联系

目标是创建一个有用的工具和其他人可以构建的基础——一个模式良好、简单的代码库，为社区服务。

总结

Handy语音转文本工具为用户提供了一个免费、开源、隐私保护的离线语音识别解决方案。通过简单的安装和设置，您可以快速开始使用语音转文本功能，而不必担心数据隐私问题。无论是为了提高工作效率，还是为了辅助功能需求，Handy都是一个值得尝试的优秀工具。

您寻找合适的语音转文本工具的旅程可以在这里结束——不是因为Handy是完美的，而是因为您可以使其成为完美的工具。

【免费下载链接】Handy A free, open source, and extensible speech-to-text application that works completely offline. 项目地址: https://gitcode.com/GitHub_Trending/handy11/Handy

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

让 Codex 桌面版拥抱 DeepSeek-V4：协议桥接与模型网关接入实践

4SAPI 提供了一套标准的 Chat Completions 接口，完全兼容 DeepSeek V4 Pro 等模型，使用时只需将 base URL 和密钥替换为平台分配的值即可。这样一来，既保留了桥接层的协议转换能力，又获得了网关带来的额外弹性。这样的模型网关，则进一步提升了链路的稳定性和密钥管理的便捷度，尤其适合团队或对服务可用性有更高要求的场景。│Codex 桌面版│ ──────────

AI Agent技术社区

别再迷信“突破限制”：Gemini 3.5-flash 边界测试实战复盘

AI Agent技术社区

Hermes Agent 上下文压缩机制深度剖析：长对话场景下的有损压缩策略

大语言模型的上下文窗口是有限资源。在长对话场景中，Token 数量不可避免地逼近模型的上下文长度上限，此时系统面临两难选择：截断历史导致信息丢失，或超出限制导致 API 报错。Hermes Agent 的上下文压缩引擎（`ContextCompressor`）实现了一套三阶段有损压缩算法，在保持对话连续性的同时将 Token 消耗控制在安全阈值内。本文从源码层面详细分析该机制的算法设计、边界处理、