30分钟上手whisper.cpp多说话人分离：从语音识别到说话人特征提取全流程

你是否遇到过会议录音中多人发言难以区分的问题？是否想过用轻量级工具实现实时语音转写并标注说话人？whisper.cpp的tinydiarize功能让这一切成为可能。本文将带你从环境搭建到实际应用，掌握说话人特征提取的核心技术，实现多说话人语音的精准分离与识别。## 技术原理与应用场景whisper.cpp作为OpenAI Whisper模型的C/C++移植版本，不仅实现了高效的语音识别，还...

穆灏璞Renata

561人浏览 · 2025-09-19 02:34:56

穆灏璞Renata · 2025-09-19 02:34:56 发布

30分钟上手whisper.cpp多说话人分离：从语音识别到说话人特征提取全流程

【免费下载链接】whisper.cpp OpenAI 的 Whisper 模型在 C/C++ 中的移植版本。项目地址: https://gitcode.com/GitHub_Trending/wh/whisper.cpp

你是否遇到过会议录音中多人发言难以区分的问题？是否想过用轻量级工具实现实时语音转写并标注说话人？whisper.cpp的tinydiarize功能让这一切成为可能。本文将带你从环境搭建到实际应用，掌握说话人特征提取的核心技术，实现多说话人语音的精准分离与识别。

技术原理与应用场景

whisper.cpp作为OpenAI Whisper模型的C/C++移植版本，不仅实现了高效的语音识别，还通过tinydiarize技术支持说话人分离功能。该功能通过分析语音信号中的独特声学特征，为不同说话人分配唯一标识，从而在转录文本中区分多说话人内容。

典型应用场景包括：

会议录音转写与说话人区分
电话客服对话分析
视频字幕生成（区分角色对话）
语音日志的结构化分析

核心技术模块位于examples/stream/stream.cpp，通过--tinydiarize参数启用说话人分离功能，结合Whisper的语音识别能力，实现"识别+分离"一体化处理。

环境准备与模型下载

1. 编译环境搭建

首先克隆项目仓库并编译：

git clone https://gitcode.com/GitHub_Trending/wh/whisper.cpp
cd whisper.cpp
make stream

编译成功后，可在examples/stream目录下找到可执行文件。

2. 模型下载

tinydiarize功能需要专用模型支持，执行以下命令下载：

cd models
bash download-ggml-model.sh base.en-tdrz  # 基础英文模型(带说话人分离)
# 或下载更大的模型以获得更好效果
bash download-ggml-model.sh medium.en-tdrz

模型文件将保存在models目录下，如ggml-base.en-tdrz.bin。

快速开始：实时多说话人分离

基本使用命令

使用麦克风输入进行实时多说话人识别：

./examples/stream/stream -m models/ggml-base.en-tdrz.bin --tinydiarize -l en

关键参数说明：

-m：指定模型路径
--tinydiarize：启用说话人分离功能
-l：指定语言（en为英语，支持多语言检测）

输出结果解析

成功运行后，你将看到类似以下的输出：

[Start speaking]

### Transcription 0 START | t0 = 0 ms | t1 = 3000 ms

[00:00:00.000 --> 00:00:02.500]  Hello everyone, this is speaker one. [SPEAKER_TURN]
[00:00:02.500 --> 00:00:05.000]  And this is speaker two responding. [SPEAKER_TURN]

### Transcription 0 END

输出中通过[SPEAKER_TURN]标记说话人切换，结合时间戳可以清晰区分不同说话人的发言内容。

进阶应用：特征提取与自定义开发

说话人特征提取原理

whisper.cpp的说话人分离基于音频特征向量的提取与比对，核心实现位于examples/stream/stream.cpp：

wparams.tdrz_enable = params.tinydiarize; // 启用tinydiarize功能

当启用该参数后，Whisper模型会在语音识别过程中同步提取说话人特征，并通过whisper_full_get_segment_speaker_turn_next函数判断说话人是否切换：

if (whisper_full_get_segment_speaker_turn_next(ctx, i)) {
    output += " [SPEAKER_TURN]";
}

批量处理音频文件

除实时处理外，还可通过以下步骤处理音频文件：

将音频转换为16kHz单声道WAV格式
使用stream工具处理：

./examples/stream/stream -m models/ggml-base.en-tdrz.bin --tinydiarize -f input.wav -of output.txt

其中-f指定输入文件，-of指定输出文件路径。

集成到自定义项目

若需将说话人分离功能集成到自己的项目中，可参考以下代码片段（来自examples/stream/stream.cpp）：

struct whisper_full_params wparams = whisper_full_default_params(WHISPER_SAMPLING_GREEDY);
wparams.tdrz_enable = true; // 关键：启用说话人分离
wparams.language = "en";
wparams.n_threads = 4;

// 处理音频数据
if (whisper_full(ctx, wparams, pcmf32.data(), pcmf32.size()) != 0) {
    fprintf(stderr, "处理音频失败\n");
    return -1;
}

// 获取并输出结果
const int n_segments = whisper_full_n_segments(ctx);
for (int i = 0; i < n_segments; ++i) {
    const char * text = whisper_full_get_segment_text(ctx, i);
    const int64_t t0 = whisper_full_get_segment_t0(ctx, i);
    const int64_t t1 = whisper_full_get_segment_t1(ctx, i);
    
    printf("[%s --> %s]  %s", to_timestamp(t0), to_timestamp(t1), text);
    if (whisper_full_get_segment_speaker_turn_next(ctx, i)) {
        printf(" [SPEAKER_CHANGE]");
    }
    printf("\n");
}

性能优化与参数调优

模型选择策略

不同模型在速度和精度上的平衡：

模型	大小	实时性能	说话人分离精度
tiny.en-tdrz	~100MB	★★★★★	★★☆
base.en-tdrz	~1GB	★★★★	★★★★
medium.en-tdrz	~3GB	★★☆	★★★★★

对于资源受限的设备，推荐使用base.en-tdrz模型，在保持良好精度的同时保证实时性。

关键参数调优

VAD阈值调整：通过-vth参数控制语音活动检测灵敏度

./stream -m models/ggml-base.en-tdrz.bin --tinydiarize -vth 0.4  # 降低阈值提高检测灵敏度

音频长度设置：通过--length和--step参数调整处理窗口

./stream --length 5000 --step 2000  # 5秒音频窗口，2秒步长

线程优化：根据CPU核心数调整线程数

./stream -t 8  # 使用8线程加速处理

常见问题与解决方案

Q1: 说话人分离效果不佳怎么办？

A1: 尝试以下方案：

更换更大的tdrz模型（如medium.en-tdrz）
确保录音环境安静，减少背景噪音
调整VAD阈值：-vth 0.3（降低阈值）或-vth 0.7（提高阈值）

Q2: 如何保存带有说话人标记的转录结果？

A2: 使用-f参数指定输出文件：

./stream -m models/ggml-base.en-tdrz.bin --tinydiarize -f output.txt

结果将保存为带时间戳和说话人标记的文本文件。

Q3: 支持中文说话人分离吗？

A3: 支持，需下载多语言模型并指定语言参数：

bash models/download-ggml-model.sh base-tdrz  # 多语言基础模型
./stream -m models/ggml-base-tdrz.bin --tinydiarize -l zh

总结与进阶学习

通过本文的介绍，你已经掌握了whisper.cpp说话人特征提取的核心功能。从实时语音识别到多说话人分离，whisper.cpp提供了轻量级且高效的解决方案，无需复杂的深度学习框架即可在本地部署。

进阶学习资源：

源码学习：examples/stream/stream.cpp
模型训练：models/convert-whisper-to-ggml.py
其他示例：examples/server（构建语音识别API服务）

现在就用你的语音数据测试这个强大的工具吧！如有问题，可查阅项目README.md或提交issue获取帮助。

提示：关注项目更新，tinydiarize功能正在持续优化中，未来版本将支持更精准的说话人区分和自定义说话人标签功能。

【免费下载链接】whisper.cpp OpenAI 的 Whisper 模型在 C/C++ 中的移植版本。项目地址: https://gitcode.com/GitHub_Trending/wh/whisper.cpp

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

从Anthropic官方文档看Claude的安全机制：隔离、模型与外部内容的三层防御体系

十二个月前，如果有人提议让Claude拥有足以搞垮Anthropic内部服务的权限，我们一定会断然拒绝。而今天，这种访问级别已经成为常态，Anthropic内部的开发者们正因为这种部署而大幅提升了生产力。这是我读完Anthropic官方工程博客《How we contain Claude across products》（2026年5月25日发布）后的第一感受。当AI Agent的能力越强大，它的