FunASR语音识别从入门到精通：模型选择、参数配置与结果导出详解

本文介绍了如何在星图GPU平台上自动化部署FunASR语音识别镜像（基于speech_ngram_lm_zh-cn二次开发构建by科哥），实现高效的中文语音转文字。该镜像支持模型选择与参数配置，其核心应用场景是快速将会议录音、访谈音频等转换为带标点的文字稿，极大提升内容整理效率。

宁南山

282人浏览 · 2026-03-15 00:08:34

宁南山 · 2026-03-15 00:08:34 发布

FunASR语音识别从入门到精通：模型选择、参数配置与结果导出详解

1. 引言：为什么你需要一个专业的语音识别工具？

想象一下这个场景：你刚刚结束了一场两小时的线上会议，领导让你整理会议纪要。面对长达两个小时的录音文件，你是选择花上半天时间，一句一句地手动听写，还是希望有一个工具，能在几分钟内就把录音变成文字，并且自动加上标点，甚至告诉你每句话是什么时候说的？

如果你选择了后者，那么FunASR语音识别系统就是你需要的工具。今天，我要带你深入了解的，是一个基于FunASR二次开发的WebUI系统，它集成了speech_ngram_lm_zh-cn语言模型，专门为中文语音识别优化。这个系统由开发者“科哥”精心打造，不仅功能强大，而且操作简单，即使你没有任何编程经验，也能轻松上手。

在接下来的内容里，我会手把手教你如何选择最适合的模型、如何配置参数让识别效果最好、以及如何导出各种格式的结果文件。无论你是想用它来做会议记录、整理采访录音，还是制作视频字幕，这篇文章都能给你最实用的指导。

2. 系统概览：这个语音识别工具能做什么？

2.1 核心功能一览

在深入细节之前，我们先来看看这个系统到底能帮你解决哪些实际问题：

多种音频格式支持：无论是MP3、WAV、M4A这些常见格式，还是FLAC、OGG、PCM这些专业格式，它都能处理。你不需要事先转换格式，直接上传就行。
两种识别方式：你可以上传已有的音频文件，也可以直接用电脑麦克风实时录音识别。开会时打开它，边开边转文字，效率翻倍。
智能语言识别：系统能自动检测你说的语言是中文、英文、粤语、日语还是韩语。当然，你也可以手动指定，让识别更准确。
结果多样化导出：识别完成后，你可以得到纯文本、带时间戳的JSON数据，还能直接生成SRT字幕文件，方便导入视频剪辑软件。
专业级功能：自动添加标点、智能分段（语音活动检测）、输出每个词的时间戳……这些专业转录软件才有的功能，这里全都有。

2.2 界面布局快速了解

打开系统后，你会看到一个很清爽的界面，主要分为左右两部分：

左侧是控制面板，这里是你做所有设置的地方：

模型选择（用大模型还是小模型）
设备选择（用显卡加速还是用CPU）
功能开关（要不要标点、要不要分段等）
操作按钮（加载模型、刷新状态）

右侧是工作区，这里是你操作和看结果的地方：

上传音频的区域
麦克风录音的按钮
参数设置的下拉菜单和滑块
显示识别结果的三个标签页

整个界面设计得很直观，即使第一次用，也能很快找到需要的功能。接下来，我们就从最重要的部分开始——如何选择模型。

3. 模型选择：大模型还是小模型？

3.1 两个模型，两种选择

系统提供了两个预置的语音识别模型，它们各有特点，适合不同的使用场景：

Paraformer-Large（大模型）

特点：精度高，识别准确率更好
适合场景：对准确率要求极高的场合，比如法律取证、医学记录、学术访谈转录
代价：需要更多的计算资源，识别速度相对慢一些
简单理解：就像请了一位经验丰富的老专家，做事特别仔细，但速度不快

SenseVoice-Small（小模型）

特点：速度快，响应迅速
适合场景：实时对话、在线客服、快速笔记、日常会议记录
代价：在特别复杂的语音环境下，准确率可能略低于大模型
简单理解：就像请了一位手脚麻利的年轻人，做事快，能满足大部分日常需求

系统默认使用的是SenseVoice-Small模型，因为对大多数人来说，速度和实用性的平衡更重要。

3.2 那个神秘的“语言模型”是什么？

你可能注意到了，系统介绍里提到了speech_ngram_lm_zh-cn这个组件。这是什么？它有什么用？

让我用一个简单的例子来解释：

假设你说了一句“我去银行存钱”，但因为发音模糊或者环境噪音，语音识别模型可能听成了“我去银行存前”。这时候，语言模型就会发挥作用——它知道在中文里，“存钱”这个词出现的概率远远高于“存前”，所以它会自动纠正这个错误。

这个speech_ngram_lm_zh-cn就是一个专门针对中文训练的语言模型，它学习了大量中文文本的规律，能帮助识别系统：

纠正同音字错误（如“期中考试”误识别为“期终考试”）
补充合理的标点符号
让识别结果更符合中文语法习惯

它就像是一个中文校对专家，在语音识别完成后，再帮你把文字润色一遍。

3.3 如何根据你的需求选择？

选择模型其实很简单，就问自己几个问题：

你的音频质量怎么样？
- 如果录音很清晰，背景噪音小 → 两个模型都可以
- 如果录音质量一般，有杂音 → 建议用Paraformer-Large，它的抗干扰能力更强
你对准确率的要求有多高？
- 如果是正式会议、重要访谈 → 选Paraformer-Large
- 如果是日常讨论、个人笔记 → SenseVoice-Small完全够用
你的电脑配置如何？
- 有独立显卡（NVIDIA GPU）→ 两个模型都能流畅运行
- 只有集成显卡或CPU → 建议用SenseVoice-Small，速度更快
你需要实时识别吗？
- 需要边说话边出文字 → SenseVoice-Small是唯一选择
- 可以等识别完成 → 两个模型都可以，按准确率需求选

我的建议是：先用SenseVoice-Small试试看。如果发现某些专业术语识别不准，或者录音环境特别复杂，再切换到Paraformer-Large。切换很简单，就在左侧面板点一下单选按钮，然后点“加载模型”就行。

4. 参数配置：让识别效果更好的关键设置

选好了模型，接下来就是配置参数了。这些设置看起来有点技术性，但其实理解起来很简单，而且对最终效果影响很大。

4.1 设备选择：用显卡还是用CPU？

这是第一个重要的选择。系统会自动检测你的电脑有没有可用的显卡：

如果检测到显卡：默认选中“CUDA”，这是NVIDIA显卡的加速技术
如果没有显卡：自动选中“CPU”，用处理器来计算

为什么要用显卡？ 用显卡（CUDA）识别速度能快5-10倍。一段10分钟的音频，用CPU可能要处理2-3分钟，用显卡可能只要20-30秒。

怎么知道该选哪个？ 很简单——相信系统的自动检测。如果它默认选了CUDA，说明你的显卡可用，就用CUDA。如果默认是CPU，要么是你没显卡，要么是驱动没装好，那就用CPU模式。

4.2 三个功能开关：标点、分段和时间戳

这三个开关在左侧面板中间位置，每个都有大用处：

启用标点恢复 (PUNC)

作用：自动给识别出来的文字加上逗号、句号、问号等标点
建议：永远打开。没有标点的文字读起来很累，这个功能能让结果直接可用

效果对比：

关闭标点：你好我是张三今天我们来讨论项目进度
开启标点：你好，我是张三。今天我们来讨论项目进度。

启用语音活动检测 (VAD)

作用：自动检测哪里是说话，哪里是沉默，然后分段
建议：通常打开。特别是处理有停顿的长篇录音时，分段后更易读
什么情况下关闭：如果你的音频本身就是一段连续的说话，没有明显停顿，可以关闭以节省一点处理时间

输出时间戳

作用：记录每个词、每句话在音频中的开始和结束时间
建议：按需开启。如果你需要做字幕，或者想快速定位到音频的某个部分，就打开它
输出格式：会生成详细的时间信息，比如“你好”这个词是从第2.5秒开始，到第3.1秒结束

4.3 识别语言设置：让系统知道你在说什么语言

这个设置在右侧工作区，是一个下拉菜单，有6个选项：

auto（自动检测）：让系统自己判断是什么语言
zh（中文）：明确告诉系统是中文
en（英文）：明确告诉系统是英文
yue（粤语）：广东话、香港话
ja（日语）
ko（韩语）

怎么选最合适？

如果你说的纯中文 → 选“zh”，准确率最高
如果你说的纯英文 → 选“en”
如果中英文混杂 → 选“auto”，让系统自己判断
如果是方言或外语 → 选对应的语言代码

一个小技巧：即使你选错了语言，系统通常也能识别出一些内容，但准确率会下降。所以尽量选对，特别是专业术语多的内容。

4.4 批量大小设置：处理长音频的秘诀

这个设置可能不太好理解，我换个说法：它决定了一次处理多长的音频。

默认值：300秒（5分钟）
可调范围：60秒到600秒（1分钟到10分钟）
单位：秒

这是什么意思？ 假设你有一个30分钟的会议录音，系统不会一次性处理完，而是把它切成若干段，每段最长5分钟（默认值），然后一段一段处理。

为什么要分段处理？

避免内存不足：特别长的音频一次性加载，可能会让电脑内存不够用
更稳定：分段处理如果某段出问题，不影响其他段
可以暂停继续：理论上可以设计成处理一段保存一段

怎么设置这个值？

如果你的音频不超过5分钟：用默认值300秒就行
如果你的音频超过5分钟：也建议用300秒，系统会自动分段
如果你的电脑配置很低：可以调到180秒（3分钟）或120秒（2分钟），减少单次处理量
如果你的电脑配置很高：可以调到600秒（10分钟），减少分段次数

记住一个原则：不是越大越好。设得太大可能卡住，设得太小会分段太多。300秒是个经过验证的平衡点。

5. 实战操作：从上传到识别的完整流程

理论说完了，现在我们来实际操作一遍。我会带你走完从上传音频到导出结果的全过程。

5.1 准备工作：你的音频需要满足什么条件？

在开始之前，先检查一下你的音频文件：

支持的格式（这些都可以直接上传）：

WAV (.wav) - 最推荐，质量最好
MP3 (.mp3) - 最常用，兼容性最好
M4A (.m4a) - 苹果设备常用
FLAC (.flac) - 无损格式，文件较大
OGG (.ogg) - 网页常用
PCM (.pcm) - 原始音频数据

音频质量要求：

采样率：16kHz最佳（系统会自动处理，但如果是16kHz效果最好）
声道：单声道或立体声都可以
时长：理论上不限，但建议单文件不要超过2小时
大小：建议不超过100MB，太大上传慢

如果音频不符合要求怎么办？ 别担心，系统有很强的兼容性。即使你的音频是其他格式或者参数不同，它也会尝试转换和处理。但如果识别效果不好，可以考虑先用格式工厂、Audacity这类软件转换一下。

5.2 方式一：上传文件识别（最常用的方式）

这是最标准的操作流程，适合处理已有的录音文件。

第一步：上传音频

在右侧工作区找到“上传音频”区域
点击上传按钮，选择你的音频文件
等待上传完成，你会看到文件名显示出来

第二步：配置参数 上传完成后，检查一下这些设置：

模型选择：按之前讲的原则选
设备选择：用系统默认的
功能开关：标点打开，VAD打开，时间戳按需
识别语言：根据内容选择
批量大小：用300秒（默认值）

第三步：开始识别 点击那个大大的“开始识别”按钮，然后等待。

等待时会发生什么？

系统先加载你选的模型（如果还没加载）
然后读取音频文件
按批量大小分段
逐段识别
应用语言模型优化结果
生成最终文本

处理时间取决于：

音频长度：10分钟音频大约需要1-2分钟（用显卡）
模型选择：大模型比小模型慢
电脑配置：显卡越快，处理越快

第四步：查看结果 识别完成后，结果会显示在下方，有三个标签页：

文本结果（最常用）：

纯文字，带标点
可以直接复制到Word、记事本
格式整齐，分段清晰

详细信息（给技术人员看）：

JSON格式的完整数据
包含每个词的置信度（系统有多确信这个词是对的）
包含时间戳信息（如果开启了）
适合程序进一步处理

时间戳（做字幕用）：

每句话的开始和结束时间
可以直接用来制作字幕
格式是“开始时间 --> 结束时间”

5.3 方式二：实时录音识别（边说话边转文字）

这个功能特别适合开会、采访、或者自己口述笔记。

第一步：准备录音环境

确保麦克风正常工作（可以先用系统自带的录音机测试）
找一个相对安静的环境，减少背景噪音
麦克风离嘴不要太远，20-30厘米最佳

第二步：开始录音

点击“麦克风录音”按钮
浏览器会询问是否允许使用麦克风，点击“允许”
看到录音按钮变红，表示正在录音
正常说话即可

第三步：停止录音

说完后点击“停止录音”
系统会自动保存录音文件
文件会出现在上传区域，就像你上传了一个文件一样

第四步：开始识别 和上传文件一样，点击“开始识别”按钮。

实时识别的小技巧：

说话时尽量清晰，不要过快
每说完一个完整意思可以稍作停顿，方便系统分段
如果某段识别不准，可以只重录那段，不用全部重来
识别过程中可以修改参数，然后重新识别同一段录音

5.4 两种方式的对比

为了帮你更好地选择，这里有个简单的对比：

对比项	上传文件识别	实时录音识别
适用场景	处理已有录音	实时记录、口述笔记
准备时间	需要事先录音	随时开始
音频质量	可以事先优化	受现场环境影响
操作复杂度	简单，上传即可	需要录音权限
灵活性	可以反复处理同一文件	每次都是新录音
推荐给	处理会议录音、采访音频	开会记录、个人笔记

6. 结果导出：三种格式，满足不同需求

识别完成不是终点，怎么把结果用起来才是关键。系统提供了三种导出方式，每种都有它的用途。

6.1 纯文本格式 (.txt)：最通用的选择

什么时候用？

你需要把文字粘贴到其他文档里
你要打印出来阅读
你要用文字做进一步分析
你需要最简洁的版本

文件内容示例：

2024年第三季度项目总结会议记录

会议时间：2024年9月15日 下午2:00-4:30
参会人员：张三、李四、王五、赵六

会议内容：
首先，张三汇报了本季度的销售数据。总体来看，销售额比上一季度增长了15%，主要增长来自华东地区。

李四介绍了新产品开发进度。目前原型机已经完成，预计下个月可以进行小批量试产。

特点：

只有文字，没有格式
文件很小，几KB到几十KB
任何设备都能打开
可以直接搜索内容

操作：点击“下载文本”按钮，文件会自动保存到电脑。

6.2 JSON格式 (.json)：最完整的数据

什么时候用？

你要把数据导入其他程序处理
你需要每个词的置信度（准确率）
你要做数据分析或可视化
你需要保留所有原始信息

文件内容结构：

{
  "text": "你好，欢迎使用语音识别系统。",
  "confidence": 0.95,
  "segments": [
    {
      "text": "你好，",
      "start": 0.0,
      "end": 0.8,
      "confidence": 0.98
    },
    {
      "text": "欢迎使用语音识别系统。",
      "start": 0.8,
      "end": 3.2,
      "confidence": 0.93
    }
  ],
  "language": "zh",
  "duration": 3.2
}

关键字段解释：

text：完整的识别文本
confidence：整体置信度，0-1之间，越接近1越准确
segments：分段信息，每段有开始时间、结束时间、文本和置信度
language：识别出的语言
duration：音频总时长（秒）

特点：

包含所有信息
适合程序读取
文件比文本大，但通常也不超过几百KB
可以用文本编辑器打开，但最好用专门的JSON查看器

操作：点击“下载JSON”按钮。

6.3 SRT字幕格式 (.srt)：视频制作者的福音

什么时候用？

你要给视频加字幕
你要制作双语字幕
你要做音频的精确定位
你要用专业字幕软件编辑

文件内容示例：

1
00:00:00,000 --> 00:00:01,500
你好，

2
00:00:01,500 --> 00:00:03,200
欢迎使用语音识别系统。

3
00:00:03,200 --> 00:00:05,800
这是一个基于FunASR的中文语音识别WebUI。

格式说明：

每个字幕块有三部分：序号、时间轴、文字
时间格式是“小时:分钟:秒,毫秒”
每个字幕块之间有空行
支持大部分视频编辑软件（Premiere、Final Cut、剪映等）

特点：

时间信息精确到毫秒
标准字幕格式，通用性强
可以直接导入视频软件
可以方便地调整字幕出现时间

操作：点击“下载SRT”按钮。

6.4 文件保存位置与组织

无论你下载哪种格式，文件都不会乱放。系统有很清晰的保存规则：

保存路径：

outputs/outputs_20250104123456/

目录命名规则：

outputs_ 是固定前缀
20250104123456 是时间戳，格式是年月日时分秒
每次识别都会创建新目录，不会覆盖旧文件

目录内容示例：

outputs/outputs_20250104123456/
├── audio_001.wav      # 你上传的音频（系统保存的副本）
├── result_001.json    # JSON格式结果
├── text_001.txt       # 纯文本结果
└── subtitle_001.srt   # SRT字幕文件

这样组织的好处：

不会丢失文件：每次识别都有独立目录
方便查找：按时间排序，最新的在最上面
文件关联：音频和它的识别结果放在一起
易于管理：可以定期清理旧的输出目录

小提示：如果你处理的是敏感内容，记得定期清理outputs文件夹，或者把输出目录改到其他位置。

7. 常见问题与解决方案

即使系统设计得很完善，在实际使用中还是可能遇到一些问题。这里我整理了最常见的几个问题及其解决方法。

7.1 识别结果不准确怎么办？

这是最常遇到的问题，通常有几个原因：

原因一：音频质量太差

表现：很多词识别错误，甚至完全不对
检查：播放音频听听，是不是有很多噪音？说话人声音太小？
解决：
1. 尽量用清晰的录音，避免环境噪音
2. 如果已有录音质量差，可以用Audacity这类软件降噪
3. 说话时离麦克风近一些（20-30厘米）

原因二：语言设置错误

表现：中文内容识别成英文，或者反过来
检查：看看识别语言设置对不对
解决：
1. 如果是纯中文，手动选“zh”
2. 如果是纯英文，手动选“en”
3. 如果中英混杂，用“auto”让系统判断

原因三：专业术语太多

表现：普通对话识别准，但专业名词错得多
解决：
1. 尝试用Paraformer-Large模型，它对复杂内容处理更好
2. 识别完成后手动修正专业术语
3. 如果经常用同一批术语，可以考虑训练自定义语言模型（进阶功能）

原因四：说话方式问题

表现：有些人说话识别准，有些人不准
解决：
1. 说话时清晰一些，不要含糊
2. 语速适中，不要过快
3. 避免太多的“嗯”、“啊”等语气词

7.2 识别速度太慢怎么办？

处理速度慢通常和电脑配置有关：

情况一：用的是CPU模式

表现：进度条走得很慢，10分钟音频要处理5分钟以上
检查：看左侧面板，设备选择是不是“CPU”
解决：
1. 如果你有NVIDIA显卡，确保安装了正确的驱动
2. 重启系统，有时候能自动检测到显卡
3. 如果确实没显卡，那只能用CPU，考虑升级硬件

情况二：音频文件太长

表现：进度条卡在某个位置很久
检查：音频是不是超过30分钟？
解决：
1. 把长音频切成几段，比如每段10分钟
2. 用格式工厂、Audacity等软件分段
3. 分段上传识别，最后合并文本

情况三：电脑同时运行太多程序

表现：电脑卡顿，识别速度不稳定
解决：
1. 关闭不必要的程序，特别是浏览器标签页
2. 增加虚拟内存（Windows可以在设置里调整）
3. 如果经常用，考虑加内存条

7.3 其他常见问题

问题：上传文件失败

可能原因：文件太大（超过100MB）、格式不支持、网络问题
解决：
1. 检查文件大小，太大的话用软件压缩一下
2. 确保是支持的格式（MP3、WAV、M4A等）
3. 换个浏览器试试（Chrome、Edge兼容性最好）

问题：录音没声音

可能原因：麦克风权限没开、麦克风坏了、系统设置问题
解决：
1. 检查浏览器是否允许使用麦克风（地址栏左边的小图标）
2. 用系统自带的录音机测试麦克风是否正常
3. 在系统设置里检查麦克风是否被禁用

问题：结果里有乱码

可能原因：编码问题、特殊字符、系统语言设置
解决：
1. 确保音频内容是常见语言（中英文等）
2. 尝试用“zh”而不是“auto”
3. 如果还有问题，把乱码部分删掉重新识别那段

问题：时间戳不对

可能原因：音频文件本身的时间信息有问题、处理时出错
解决：
1. 重新上传文件再试一次
2. 用音频编辑软件检查文件的时间轴
3. 如果只是轻微偏差，可以在SRT文件里整体调整时间

8. 总结：从入门到精通的实践建议

通过前面的介绍，你现在应该对FunASR语音识别系统有了全面的了解。从模型选择到参数配置，从操作流程到结果导出，每个环节都有它的技巧和注意事项。让我最后给你一些总结性的建议，帮你真正从“会用”到“用好”。

8.1 给新手的快速上手指南

如果你是第一次使用，按照这个顺序来：

第一次使用：所有设置都用默认值，上传一个短的测试音频（1-2分钟），看看效果
熟悉界面：花5分钟看看各个按钮和选项是干什么的
尝试不同功能：分别试试上传文件和实时录音，看看哪种更适合你
导出结果：三种格式都下载一次，了解它们有什么区别
调整参数：根据你的实际需求，微调模型、语言等设置

记住：不要一开始就追求完美。先让它跑起来，看到结果，然后再慢慢优化。

8.2 不同场景的最佳实践

根据你的使用场景，可以这样配置：

场景一：日常会议记录

模型：SenseVoice-Small（速度快）
设备：CUDA（如果有显卡）
功能：标点打开，VAD打开，时间戳关闭
语言：zh（如果是中文会议）
操作：实时录音，边开边记

场景二：重要访谈转录

模型：Paraformer-Large（准确率高）
设备：CUDA
功能：标点打开，VAD打开，时间戳打开（方便引用）
语言：根据访谈语言选择
操作：先录音，后上传处理

场景三：视频字幕制作

模型：SenseVoice-Small（平衡速度和准确率）
设备：CUDA
功能：标点打开，VAD打开，时间戳必须打开
语言：根据视频语言选择
操作：上传视频音频，导出SRT格式

场景四：个人语音笔记

模型：SenseVoice-Small
设备：CPU也行（个人笔记不长）
功能：标点打开，VAD关闭（个人说话连贯）
语言：auto
操作：实时录音，说完立即出文字

8.3 进阶技巧与优化建议

当你用熟练之后，可以尝试这些进阶技巧：

批量处理技巧：如果你有很多音频文件要处理，不要一个个手动操作。可以写一个简单的脚本，或者用系统的批量处理功能（如果有的话）。更高效的做法是：先把所有文件放在一个文件夹里，然后用文件批量重命名工具按顺序编号，再依次处理。

结果后处理：识别结果不是终点，而是起点。你可以：

用文本编辑器的查找替换功能，批量修正常见的识别错误
如果做字幕，用字幕编辑软件（如Arctime）进一步调整时间轴
如果做会议纪要，在识别结果的基础上添加行动项、负责人等信息

质量监控：定期检查识别准确率。可以随机抽几段，对比原始音频和识别结果，计算准确率。如果发现某类内容（如专业术语）识别率低，考虑：

在说话时更清晰地发音
识别后统一替换这些术语
寻找更适合的专业语音识别工具

系统维护：

定期清理outputs文件夹，避免占用太多磁盘空间
关注系统更新，新版本可能修复问题或增加功能
如果使用频繁，考虑将系统部署在性能更好的服务器上

8.4 最后的思考

语音识别技术正在快速进步，但还没有完美到100%准确。FunASR系统提供了一个很好的平衡点：在保持较高准确率的同时，让普通用户也能轻松使用。

关键是要合理预期：它不能完全替代人工转录，但能大大减少你的工作量。根据我的经验，一个好的语音识别系统能完成80%-90%的工作，剩下的10%-20%需要人工校对和润色。

这套基于FunASR二次开发的系统，最大的优势在于易用性。你不需要懂深度学习，不需要写代码，甚至不需要知道什么是“语言模型”，就能获得不错的识别效果。这对于大多数非技术用户来说，是最重要的。

现在，你已经掌握了从模型选择到结果导出的全套技能。接下来要做的，就是实际用起来。选一个你最需要的场景，上传一段音频，看看效果如何。实践出真知，用的越多，你就越能发现哪些设置最适合你的需求。

记住所有技术工具的最终目的：不是展示技术有多先进，而是真正帮人解决问题。希望这个语音识别系统，能成为你工作和学习中的得力助手。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

后端接入 AI Agent：Tool Calling 网关、幂等与审计日志实战

AI Agent技术社区

AI导出鸭惊了！DeepSeek代码手机导出保姆级实操，不看亏一套海景房

AI Agent技术社区

OpenClaw vs Hermes Agent：企业级执行 vs 自我进化，一文读懂怎么选！

AI Agent 开源双子星深度对比：OpenClaw（GitHub 26.4w⭐）主打工程化落地，四层记忆+20+渠道+13,700+技能，适合企业自动化；Hermes Agent（53天10w⭐）主打闭环学习，四级记忆+自动技能进化+3,200+社区技能，越用越聪明。两者可互补组合：OpenClaw 做稳定执行引擎，Hermes 做持续学习大脑。短期落地选 OpenClaw，长期陪伴选 Her