从会议记录到智能客服：手把手教你用Python和开源库实现一个简易的说话人分离Demo

weixin_30855099

313人浏览 · 2026-06-02 16:59:42

weixin_30855099 · 2026-06-02 16:59:42 发布

从会议记录到智能客服：手把手教你用Python实现说话人分离实战

想象一下这样的场景：一场两小时的跨部门会议结束后，你需要从混杂的录音中整理出每位发言者的观点；或是客服中心需要从海量通话录音中快速定位特定客户的反馈。传统人工处理不仅耗时耗力，且容易遗漏关键信息。这就是说话人分离技术（Speaker Diarization）大显身手的时刻——它能像专业的音频编辑师一样，自动识别并分割不同说话人的语音片段。

本文将带你用Python构建一个可落地的说话人分离系统。我们不会停留在理论层面，而是直接从一段模拟会议录音开始，通过代码实现以下关键步骤：

环境配置 ：搭建支持GPU加速的Python环境
音频预处理 ：降噪、标准化等必要处理
语音活动检测 （VAD）：精准定位人声片段
声纹特征提取 ：捕获说话人独特的声音指纹
聚类分析 ：区分不同说话人
结果可视化 ：生成带标签的文本和分段音频

1. 环境准备与数据获取

1.1 创建Python虚拟环境

为避免依赖冲突，建议使用conda创建独立环境：

conda create -n diarization python=3.8
conda activate diarization

安装核心依赖库：

pip install torch torchaudio pyannote.audio speechbrain

注意：pyannote.audio需要PyTorch 1.9+版本，若遇到兼容性问题可指定安装版本： pip install torch==1.9.0

1.2 准备测试音频

我们使用LibriSpeech数据集中的多人对话片段作为示例。你也可以录制自己的会议模拟音频（建议采样率16kHz，单声道）：

from speechbrain.dataio.dataio import read_audio
import matplotlib.pyplot as plt

# 加载示例音频
waveform = read_audio("meeting_sample.wav")
plt.figure(figsize=(12, 3))
plt.plot(waveform.squeeze())
plt.title("原始音频波形")
plt.xlabel("采样点")
plt.ylabel("振幅")
plt.show()

典型问题排查：

若出现 No module named 'speechbrain' 错误，检查虚拟环境是否激活
音频文件路径建议使用绝对路径
波形图若显示为直线，可能文件损坏或格式不支持

2. 语音活动检测（VAD）实战

VAD是说话人分离的第一步，它能有效过滤静音片段。我们对比两种主流实现：

方法	优点	缺点	适用场景
WebRTC VAD	轻量级，实时性好	对噪声敏感	实时通信场景
Pyannote VAD	准确率高，抗干扰强	计算资源消耗较大	离线高精度分析

这里采用SpeechBrain的VAD实现：

from speechbrain.pretrained import VAD

# 加载预训练模型
vad_model = VAD.from_hparams(source="speechbrain/vad-crdnn-libriparty")

# 执行VAD检测
boundaries = vad_model.get_speech_segments("meeting_sample.wav")

# 输出检测结果
print("检测到的语音片段：")
for i, (start, end) in enumerate(boundaries):
    print(f"片段{i+1}: {start:.2f}s - {end:.2f}s")

常见调优参数：

threshold : 提高可减少误报但可能漏检（默认0.5）
min_duration : 最小语音片段时长（秒）
speech_pad : 片段边缘扩展时长

提示：实际应用中建议保存VAD结果到JSON文件，避免重复计算：

import json
with open("vad_results.json", "w") as f:
    json.dump(boundaries.tolist(), f)

3. 声纹特征提取与说话人嵌入

声纹特征如同声音的指纹，我们使用ECAPA-TDNN模型提取说话人嵌入向量：

from speechbrain.pretrained import SpeakerRecognition

# 加载声纹模型
verification = SpeakerRecognition.from_hparams(
    source="speechbrain/spkrec-ecapa-voxceleb"
)

# 提取嵌入向量
embeddings = []
for start, end in boundaries:
    segment = waveform[:, int(start*16000):int(end*16000)]
    emb = verification.encode_batch(segment)
    embeddings.append(emb.squeeze())

# 转换为numpy数组
import numpy as np
embeddings = np.array(embeddings)
print(f"共提取{len(embeddings)}个嵌入向量，维度：{embeddings[0].shape}")

关键参数解析：

输入音频需为16kHz采样率
每个嵌入向量是192维浮点数组
模型在VoxCeleb数据集上预训练，支持英文最佳

可视化声纹特征相似度：

from sklearn.metrics.pairwise import cosine_similarity
import seaborn as sns

sim_matrix = cosine_similarity(embeddings)
plt.figure(figsize=(8, 6))
sns.heatmap(sim_matrix, annot=True, fmt=".2f")
plt.title("说话人片段相似度矩阵")
plt.show()

4. 说话人聚类与结果输出

使用层次聚类算法区分不同说话人：

from sklearn.cluster import AgglomerativeClustering

# 确定最佳聚类数量（示例使用固定值）
num_speakers = 2  
cluster_model = AgglomerativeClustering(
    n_clusters=num_speakers,
    affinity='cosine',
    linkage='average'
)
labels = cluster_model.fit_predict(embeddings)

# 关联时间戳与说话人标签
results = []
for i, (start, end) in enumerate(boundaries):
    results.append({
        "start": start,
        "end": end,
        "speaker": f"Speaker_{labels[i]+1}"
    })

# 保存结果
import pandas as pd
pd.DataFrame(results).to_csv("diarization_results.csv", index=False)

进阶技巧：

使用 silhouette_score 自动确定最佳说话人数量
尝试DBSCAN聚类应对未知说话人数量场景
结合 pyannote.metrics 计算DER评估指标

生成带说话人标签的文本输出：

from pyannote.core import Annotation, Segment

annotation = Annotation()
for seg in results:
    segment = Segment(seg["start"], seg["end"])
    annotation[segment] = seg["speaker"]

# RTTM格式输出
with open("result.rttm", "w") as f:
    annotation.write_rttm(f)

5. 系统优化与生产部署

5.1 性能优化策略

GPU加速 ：确保PyTorch使用CUDA：

import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
verification.to(device)

批处理 ：同时处理多个音频片段
模型量化 ：减小模型体积提升推理速度

5.2 常见问题解决方案

问题现象	可能原因	解决方案
聚类结果全部归为一类	音频质量差/音量过低	增加音频增益，应用降噪
频繁切换说话人标签	聚类阈值设置不合理	调整affinity参数或更换算法
处理时间过长	音频过长/模型过大	分段处理，使用轻量级模型

5.3 实际应用扩展

会议纪要系统 ：结合ASR生成带说话人标签的文本
客服质检 ：统计各客服代表的通话时长与关键词
广播监测 ：识别节目中不同嘉宾的发言比例

# 简单ASR集成示例
from speechbrain.pretrained import WhisperASR

asr_model = WhisperASR.from_hparams(source="speechbrain/asr-whisper-medium-commonvoice")
for seg in results:
    segment = waveform[:, int(seg["start"]*16000):int(seg["end"]*16000)]
    text = asr_model.transcribe_batch(segment)
    seg["text"] = text[0]

最终效果展示：

[00:01.2 - 00:05.8] Speaker_1: 我认为Q2的销售目标需要调整...
[00:06.1 - 00:09.3] Speaker_2: 从技术层面看，当前系统承载能力...
[00:10.5 - 00:15.7] Speaker_1: 市场部的调研数据显��...

通过这个项目，我们不仅构建了一个可用的说话人分离系统，更重要的是理解了从原始音频到结构化结果的完整处理流程。在实际业务场景中，你可能需要针对特定语音特点（如方言、专业术语）进行模型微调，或结合业务规则优化聚类策略。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

实测百度网盘企业版“视频内容智能搜索“：搜的不是文件名，是视频里说的每一句话

AI Agent技术社区

【AI战国时代】国内大厂互联网技术开源贡献格局与 AI Agent 时代趋势分析

AI Agent技术社区

告别剪辑熬夜赶工：口播智能匹配画面，30 分钟搞定全账户一周投放素材

传统流程里，剪辑师拿到一条达人口播，先要完整听 2-3 遍，拆分话术节点，写好对应画面的备注，再去素材库找对应的产品特写、演示视频、场景空镜，然后拖到时间线上逐帧对齐，最后再加字幕、加转场。系统自动完成语音识别、语义打标、画面检索、音画同步全流程：自动识别每一句话术对应的信息，自动从素材库调取最匹配的画面，自动按照口播节奏完成拼接对齐，连字幕和基础转场都能自动生成。所有画面都来自原生素材库，是重新