// 01

先从全貌说起

整个系统可以用三句话概括:入口多样,内核唯一;功能模块化,依赖松耦合;状态持久化,会话可恢复。

无论你从命令行、Telegram、VS Code 还是 REST API 发来消息,最终都由同一个 AIAgent 类来处理。这保证了行为一致,也大大降低了维护成本。工具系统、内存插件、上下文引擎都是注册制——可以随时插拔,不需要修改核心代码。

// 02

Agent 循环:心跳一直在跳

如果说整个系统是一台机器,Agent 循环(Agent Loop)就是它的心跳。每当用户发来一条消息,AIAgent.run_conversation() 就开始一轮循环。

**可中断的 API 调用:**HTTP 请求在后台线程运行,主线程同时监听中断信号。用户发来 /stop 或新消息时,当前请求被丢弃,Agent 干净地响应新输入——不会有"回答到一半"的脏数据写入历史。

**Fallback 兜底:**主模型报 429、5xx 或鉴权错误时,系统自动按配置顺序尝试备用服务商,整个对话不中断。辅助任务(视觉理解、压缩摘要)也有独立的备用链。

// 03

Prompt 组装:系统提示词是怎么搭起来的

Hermes 把系统提示词拆成多个稳定层,在会话开始时一次性组装好,此后不再改动。核心原因是 Prompt Cache 成本——稳定的前缀可将 token 费用降低约 75%。

上下文文件优先级(仅加载第一个命中的)

1st · .hermes.md / HERMES.md2nd · AGENTS.md3rd · CLAUDE.md4th · .cursorrules

记忆快照的微妙之处:MEMORY.md 在会话开始时冻结进 Prompt。如果会话中途通过 memory 工具写入了新内容,它会实时写到磁盘,但不会改变当前会话的系统提示词——要等下一个会话才能看到新记忆。这防止了"改动 Prompt 导致缓存全部失效"的问题。

// 04

上下文压缩与缓存:长对话不失忆

处理复杂任务时对话往往很长——一个重构大型代码库的任务可能产生几十轮工具调用,消耗数万 token。Hermes 的解法是双层压缩系统加 Anthropic Prompt Cache。

压缩算法四个阶段

PHASE 01

清除旧工具输出

无 LLM 调用,直接替换超过 200 字符的旧工具结果为占位符,最廉价的降本手段

PHASE 02

确定保护边界

头部保留 3 条,尾部按 token 预算保留最近 N 条(至少 20 条),中间段将被摘要

PHASE 03

LLM 生成结构化摘要

辅助 LLM 将中间段压缩为"目标→进度→决策→相关文件→下一步"的结构化摘要

PHASE 04

拼接并清理

组合头部+摘要+尾部,修复孤儿 tool_call/tool_result 对,生成子会话 ID

压缩后的实际效果:45 条消息 95K token → 压缩后 25 条 45K token,关键进度和决策完整保留。再次压缩时,旧摘要会被"更新"而非重写,已完成的任务从"进行中"移到"已完成",信息不丢失地迭代积累。

**Prompt Caching 策略(仅限 Anthropic):**Hermes 在系统提示词和最近 3 条消息上各放置一个 cache breakpoint(共 4 个,达到 Anthropic 的上限),使多轮对话的输入 token 成本降低约 75%。

// 05

消息网关:一个 Agent,接入 20+ 平台

Hermes 有一个长期运行的消息网关进程,负责对接各种通讯平台。无论是 Telegram 群组消息、Discord @提及还是企业微信工单,都会被规范化成内部 MessageEvent,交由同一个 AIAgent 处理。

两级消息保护

当 Agent 正在处理一条消息时,用户发来第二条会被暂时排队。/stop/approve/deny 等控制命令可以"插队"直接到达 Agent,其他消息则等待。这防止了并发竞争导致的历史记录混乱。

DM 配对授权

管理员用 /pair 生成一次性配对码,新用户发送这个码就能获得授权,无需修改任何配置文件——适合快速将新用户引入 Agent。

// 06

工具系统:Agent 的手

工具是 Agent 执行能力的载体。Hermes 内置 70+ 工具,分成约 28 个工具集,从文件读写、终端命令到浏览器自动化,一应俱全。

自动注册机制

每个工具文件的底部只需一行注册调用,启动时自动被发现,无需手动维护列表:

# tools/file_tools.py 末尾registry.register("read_file", read_file_handler, schema=READ_FILE_SCHEMA)# tools/web_tools.py 末尾registry.register("web_search", web_search_handler, schema=WEB_SEARCH_SCHEMA)

整个注册链路如下:

tools/registry.py    # 基础模块,无依赖,最先加载    ↑tools/*.py           # 各自在 import 时调用 registry.register()    ↑model_tools.py       # 汇总 schema,处理 handle_function_call() 分发    ↑run_agent.py         # 使用工具列表构造 LLM API 请求

终端工具支持 7 种后端

本地 shellDocker 容器SSH 远程DaytonaModalSingularityVercel Sandbox

切换执行环境只需改配置,工具调用代码不变。同时,MCP(Model Context Protocol)工具得到原生支持——挂载任意 MCP 服务后,Hermes 在运行时动态加载其暴露的工具,无需重启。

// 07

会话存储:记住每一次交流

Hermes 用 SQLite + FTS5 做会话持久化。FTS5 是 SQLite 的全文检索扩展,让 session_search 工具能在历史会话中快速检索关键词——Agent 在开始新任务前可以主动"回忆"相关背景。

会话血缘追踪(Lineage)

每次压缩会生成一个"子会话",记录从哪个父会话压缩而来。这让你可以追溯一个长任务的完整历史,即便中途经过多次压缩。

Profile 隔离

每个 profile(如 hermes -p devhermes -p work)拥有独立的 HERMES_HOME,包含独立的配置、记忆、会话和网关进程。多个 profile 可以同时运行,互不干扰——比如一个挂着 Telegram Bot,另一个跑着 IDE 插件。

// 08

设计哲学总结

读完这些子系统,可以提炼出 Hermes 背后的六条核心设计原则——它们相互支撑,共同造就了在复杂长任务场景下依然稳定可靠的 Agent 框架。

原则 具体体现
Prompt 稳定性 系统提示词在会话内不变,最大化 Anthropic Prompt Cache 命中率,降低约 75% 输入 token 成本
可观测执行 每次工具调用都通过 callback 实时反馈给用户:CLI 显示 spinner,网关发送进度消息
可中断 API 调用和工具执行均可被用户随时取消,不留脏数据,新消息优先处理
平台无关核心 同一个 AIAgent 类服务 CLI、消息网关、ACP IDE 插件、批处理和 API Server,平台差异在入口层处理
松耦合 MCP、插件、内存提供者、RL 环境均为注册制和 check_fn 门控,非强依赖,可按需启用
Profile 隔离 每个 profile 有独立的 HERMES_HOME、配置、记忆、会话、网关进程,多实例并行互不干扰

2026年AI行业最大的机会,毫无疑问就在应用层

字节跳动已有7个团队全速布局Agent

大模型岗位暴增69%,年薪破百万!

腾讯、京东、百度开放招聘技术岗,80%与AI相关……

如今,超过60%的企业都在推进AI产品落地,而真正能交付项目的 大模型应用开发工程师 **,**却极度稀缺!

落地AI应用绝对不是写几个prompt,调几个API就能搞定的,企业真正需要的,是能搞定这三项核心能力的人:

✅RAG:融入外部信息,修正模型输出,给模型装靠谱大脑

✅Agent智能体:让AI自主干活,通过工具调用(Tools)环境交互,多步推理完成复杂任务。比如做智能客服等等……

✅微调:针对特定任务优化,让模型适配业务

目前,脉脉上有超过1000家企业发布大模型相关岗位,人工智能岗平均月薪7.8w!实习生日薪高达4000!远超其他行业收入水平!

技术的稀缺性,才是你「值钱」的关键!

具备AI能力的程序员,比传统开发高出不止一截!有的人早就转行AI方向,拿到百万年薪!👇🏻👇🏻

图片

AI浪潮,正在重构程序员的核心竞争力!现在入场,仍是最佳时机!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

⭐️从大模型微调到AI Agent智能体搭建

剖析AI技术的应用场景,用实战经验落地AI技术。从GPT到最火的开源模型,让你从容面对AI技术革新!

大模型微调

  • 掌握主流大模型(如DeepSeek、Qwen等)的微调技术,针对特定场景优化模型性能。

  • 学习如何利用领域数据(如制造、医药、金融等)进行模型定制,提升任务准确性和效率。

RAG应用开发

  • 深入理解检索增强生成(Retrieval-Augmented Generation, RAG)技术,构建高效的知识检索与生成系统。
  • 应用于垂类场景(如法律文档分析、医疗诊断辅助、金融报告生成等),实现精准信息提取与内容生成。

AI Agent智能体搭建

  • 学习如何设计和开发AI Agent,实现多任务协同、自主决策和复杂问题解决。
  • 构建垂类场景下的智能助手(如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等)。

图片

如果你也有以下诉求:

快速链接产品/业务团队,参与前沿项目

构建技术壁垒,从竞争者中脱颖而出

避开35岁裁员危险期,顺利拿下高薪岗

迭代技术水平,延长未来20年的新职业发展!

……

那这节课你一定要来听!

因为,留给普通程序员的时间真的不多了!

立即扫码,即可免费预约

「AI技术原理 + 实战应用 + 职业发展

「大模型应用开发实战公开课」

👇👇

在这里插入图片描述

👍🏻还有靠谱的内推机会+直聘权益!!

完课后赠送:大模型应用案例集、AI商业落地白皮书

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐