如何使用Handy语音转文本工具:离线语音识别的完整指南

【免费下载链接】Handy A free, open source, and extensible speech-to-text application that works completely offline. 【免费下载链接】Handy 项目地址: https://gitcode.com/GitHub_Trending/handy11/Handy

Handy是一款免费、开源且可扩展的语音转文本应用程序,完全离线工作。它是一个跨平台桌面应用程序,提供简单、注重隐私的语音转录功能。按下快捷键,说话,您的文字就会出现在任何文本字段中。这一切都在您自己的计算机上完成,不会将任何信息发送到云端。

Handy应用程序图标 Handy应用程序图标,展示了友好的手势设计

为什么选择Handy语音转文本工具?

Handy的创建是为了填补真正开源、可扩展的语音转文本工具的空白。正如handy.computer所述:

  • 免费:辅助工具应该掌握在每个人手中,而不是被付费墙阻挡
  • 开源:我们可以共同进一步发展。为自己扩展Handy,并为更大的项目做出贡献
  • 隐私:您的声音留在您的计算机上。无需将音频发送到云端即可获得转录
  • 简单:一个工具,一个工作。转录您所说的内容并将其放入文本框

Handy并不试图成为最好的语音转文本应用程序——它试图成为最可分叉的应用程序。

Handy语音转文本工具的工作原理

  1. 按下可配置的键盘快捷键开始/停止录制(或使用按键通话模式)
  2. 说话当快捷键处于活动状态时说出您的话
  3. 释放后,Handy使用Whisper处理您的语音
  4. 获取转录文本直接粘贴到您正在使用的任何应用程序中

整个过程完全在本地进行:

  • 使用Silero的VAD(语音活动检测)过滤静音
  • 转录使用您选择的模型:
    • Whisper模型(Small/Medium/Turbo/Large),在可用时支持GPU加速
    • Parakeet V3 - CPU优化模型,具有出色的性能和自动语言检测
  • 适用于Windows、macOS和Linux

Handy工作流程示意图 Handy语音转文本工作流程示意图,展示了从语音输入到文本输出的全过程

Handy语音转文本工具的快速入门

安装步骤

  1. 发布页面网站下载最新版本
    • macOS:也可通过Homebrew cask获取:brew install --cask handy
  2. 安装应用程序
  3. 启动Handy并授予必要的系统权限(麦克风、辅助功能)
  4. 在设置中配置您喜欢的键盘快捷键
  5. 开始转录!

开发设置

有关包括特定平台要求在内的详细构建说明,请参见BUILD.md

Handy的架构

Handy是作为Tauri应用程序构建的,结合了:

  • 前端:React + TypeScript与Tailwind CSS用于设置UI
  • 后端:Rust用于系统集成、音频处理和ML推理
  • 核心库
    • whisper-rs:使用Whisper模型进行本地语音识别
    • transcription-rs:使用Parakeet模型进行CPU优化的语音识别
    • cpal:跨平台音频I/O
    • vad-rs:语音活动检测
    • rdev:全局键盘快捷键和系统事件
    • rubato:音频重采样

调试模式

Handy包含高级调试模式,用于开发和故障排除。通过按以下键访问:

  • macOSCmd+Shift+D
  • Windows/LinuxCtrl+Shift+D

Handy语音转文本工具的系统要求

以下是在您自己的机器上运行Handy的建议。如果您不满足系统要求,应用程序的性能可能会下降。我们正在努力提高各种计算机和硬件的性能。

对于Whisper模型:

  • macOS:M系列Mac,Intel Mac
  • Windows:Intel、AMD或NVIDIA GPU
  • Linux:Intel、AMD或NVIDIA GPU
    • Ubuntu 22.04,24.04

对于Parakeet V3模型:

  • 仅CPU操作 - 在各种硬件上运行
  • 最低要求:Intel Skylake(第6代)或同等AMD处理器
  • 性能:在中端硬件上约为实时速度的5倍(在i5上测试)
  • 自动语言检测 - 无需手动选择语言

Wordcab支持的Handy Wordcab支持的Handy语音转文本工具,提供高质量的语音识别服务

Handy的故障排除

手动模型安装(适用于代理用户或网络限制)

如果您处于代理、防火墙或受限制的网络环境中,Handy无法自动下载模型,您可以手动下载和安装它们。URL可从任何浏览器公开访问。

步骤1:找到您的应用数据目录
  1. 打开Handy设置
  2. 导航到关于部分
  3. 复制显示的"应用数据目录"路径,或使用快捷键:
    • macOSCmd+Shift+D打开调试菜单
    • Windows/LinuxCtrl+Shift+D打开调试菜单

典型路径为:

  • macOS~/Library/Application Support/com.pais.handy/
  • WindowsC:\Users\{username}\AppData\Roaming\com.pais.handy\
  • Linux~/.config/com.pais.handy/
步骤2:创建模型目录

在您的应用数据目录中,如果尚不存在,创建一个models文件夹:

# macOS/Linux
mkdir -p ~/Library/Application\ Support/com.pais.handy/models

# Windows (PowerShell)
New-Item -ItemType Directory -Force -Path "$env:APPDATA\com.pais.handy\models"
步骤3:下载模型文件

从下面下载您想要的模型

Whisper模型(单个.bin文件):

  • Small (487 MB):https://blob.handy.computer/ggml-small.bin
  • Medium (492 MB):https://blob.handy.computer/whisper-medium-q4_1.bin
  • Turbo (1600 MB):https://blob.handy.computer/ggml-large-v3-turbo.bin
  • Large (1100 MB):https://blob.handy.computer/ggml-large-v3-q5_0.bin

Parakeet模型(压缩档案):

  • V2 (473 MB):https://blob.handy.computer/parakeet-v2-int8.tar.gz
  • V3 (478 MB):https://blob.handy.computer/parakeet-v3-int8.tar.gz
步骤4:安装模型

对于Whisper模型(.bin文件):

只需将.bin文件直接放入models目录:

{app_data_dir}/models/
├── ggml-small.bin
├── whisper-medium-q4_1.bin
├── ggml-large-v3-turbo.bin
└── ggml-large-v3-q5_0.bin

对于Parakeet模型(.tar.gz档案):

  1. 提取.tar.gz文件
  2. 提取的目录放入models文件夹
  3. 目录必须精确命名如下:
    • Parakeet V2parakeet-tdt-0.6b-v2-int8
    • Parakeet V3parakeet-tdt-0.6b-v3-int8

最终结构应如下所示:

{app_data_dir}/models/
├── parakeet-tdt-0.6b-v2-int8/     (包含模型文件的目录)
│   ├── (模型文件)
│   └── (配置文件)
└── parakeet-tdt-0.6b-v3-int8/     (包含模型文件的目录)
    ├── (模型文件)
    └── (配置文件)

重要说明:

  • 对于Parakeet模型,提取的目录名称必须与上面显示的完全匹配
  • 不要重命名Whisper模型的.bin文件——使用下载URL中的精确文件名
  • 放置文件后,重新启动Handy以检测新模型
步骤5:验证安装
  1. 重新启动Handy
  2. 打开设置→模型
  3. 您手动安装的模型现在应显示为"已下载"
  4. 选择您要使用的模型并测试转录

如何贡献

  1. 查看现有问题github.com/cjpais/Handy/issues
  2. 分叉仓库并创建功能分支
  3. 在目标平台上彻底测试
  4. 提交拉取请求,并清晰描述更改
  5. 加入讨论 - 通过contact@handy.computer联系

目标是创建一个有用的工具和其他人可以构建的基础——一个模式良好、简单的代码库,为社区服务。

总结

Handy语音转文本工具为用户提供了一个免费、开源、隐私保护的离线语音识别解决方案。通过简单的安装和设置,您可以快速开始使用语音转文本功能,而不必担心数据隐私问题。无论是为了提高工作效率,还是为了辅助功能需求,Handy都是一个值得尝试的优秀工具。

您寻找合适的语音转文本工具的旅程可以在这里结束——不是因为Handy是完美的,而是因为您可以使其成为完美的工具。

【免费下载链接】Handy A free, open source, and extensible speech-to-text application that works completely offline. 【免费下载链接】Handy 项目地址: https://gitcode.com/GitHub_Trending/handy11/Handy

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐