从Claude Code到Hermes:论AI Agent的“全量暴露”与“渐进式披露”架构之争
摘要:本文对比了ClaudeCode/Codex(全量暴露)和Hermes(渐进式披露)两种AI编程助手的架构差异。测试发现,全量暴露方案虽提示词庞大,但凭借缓存机制实际Token消耗更低,且能保持思维连贯性;而渐进式披露虽看似轻量,却因缓存命中率低导致综合成本更高,且存在思维断片风险。文章建议:复杂编程任务适合全量暴露,短平快场景可选渐进式披露,并指出优化缓存机制是渐进式方案的关键挑战。
导语:
最近深度体验了Claude Code (CC)、OpenCodex (Codex) 以及被称为 “OpenClaw 继承人” 的 Hermes。原以为 Hermes 这种复杂的 Skills 系统会是“Token 吞噬兽”,实测却发现事实并非如此。CC 和 Codex 虽然每次都全量输入系统提示词,但凭借缓存机制反而能“薅羊毛”;而看似轻量灵活的 Hermes,却在缓存命中率上吃了亏。这背后,其实是两种截然不同的 Agent 架构哲学:“全量暴露”与“渐进式披露”。本文将结合实测数据,聊聊这两种方案对逻辑严谨性、Token 消耗以及“思维连贯性”的影响。
一、 先打破刻板印象:谁的 Token 在燃烧?
在测试前,我有一个刻板印象:
-
CC/Codex: 上来就把工具定义、编码规范、运行环境一股脑塞进 System Prompt,每次对话都是“庞然大物”,Token 肯定扛不住。
-
Hermes: 号称轻量、基于 Skills 动态加载,按需取用,听起来就很“省”。
实测后的反差:
-
Claude Code / Codex(全量派):
它们的系统提示词确实大,且每一次请求几乎都是相同且全量的。但关键在于,对于这种“每次请求高度一致”的巨型前缀,LLM 服务商(如 Anthropic 的 Prompt Caching)能完美命中缓存。
结果: 虽然绝对 Token 量很大,但实际计费的增量 Token 很少,写入一次,后续全是读取缓存的低价甚至免费 Token。这是“看似粗放,实则精算”的工程学胜利。 -
Hermes(渐进派):
Hermes 的核心是 Skills 系统。它只在需要时注入特定 Skill 的提示词,平时系统提示词很瘦。但问题在于,每切换一个 Skill,上下文的结构就变了。对于缓存机制来说,前缀没变,中间插入或替换了新的 Skill 定义,导致缓存前缀失效。
结果: 虽然单次输入的绝对量少了,但每次都要重新计算缓存,缓存命中率极低,综合成本并没有想象中低。这是“看似精打细算,实则错过缓存红利”的遗憾。
二、 架构哲学对决:全量暴露 vs. 渐进式披露
这不仅仅是成本账,更是两种设计哲学的分野。
1. 全量暴露(Monolithic Exposure)—— 以 CC/Codex 为例
模式: 将所有能力平铺直叙。
-
优点:
-
缓存亲和性极佳: 系统提示词静态不变,完美适配当前主流的大模型上下文缓存架构。
-
逻辑极其严谨: 模型在推理一开始就拥有“上帝视角”,知道所有能用的工具和规则。不会因为中途突然蹦出来一个新 Skill 而打断原有的推理链条,适合复杂的代码重构、跨文件修改等需要极强全局观的任务。
-
思维不“断片”: 没有动态注入的干扰,模型注意力分布稳定。
-
-
缺点:
-
臃肿: 如果工具集过大,全量塞入会挤压有效上下文窗口。
-
干扰: 过多的无关功能描述可能会在复杂指令下误导模型的注意力。
-
2. 渐进式披露(Progressive Disclosure)—— 以 Hermes 为例
模式: Hermes 本质是一个基于 Skills 系统的产品。只暴露核心元能力,具体技能通过调度实时注入。
-
优点:
-
轻量启动: 初始上下文极简,响应快,注意力集中。
-
按需扩展: 理论上可以挂载无限多的 Skills,而不会在不需要时挤占窗口。
-
关注点分离: 开发者可以独立维护不同的 Skill,架构极其优雅。
-
-
陷阱:
-
缓存失效: 动态注入破坏了上下文的静态性,导致每次调用都可能触发昂贵的全量重计算。
-
思维“断片”风险: 这是你提到的关键点。当模型处理一个复杂任务时,如果需要中途检索并注入新 Skill,上下文会发生突变。这种结构性的断裂极易导致模型遗忘最初的约束,或者产生逻辑上的“颠簸”。就像你在做数学题时,每做一步都要去翻看一本新发下来的参考书,思路容易被打断。
-
三、 场景适配:何时“全量”,何时“渐进”?
结合你的对比,我们可以得出以下选型建议:
1. 复杂、长链条的逻辑严谨场景(推荐全量暴露)
-
典型场景: 大型重构、DevOps 自动化脚本、需要严格遵循企业规范的代码生成。
-
理由: 这类任务要求模型自始至终记住所有底线和规范。切换提示词和 Skills 的开销不仅是 Token 成本,更是认知成本。 全量暴露虽然暴力,但保证了思维链条的平顺,避免了“思维断片”引发的幻读或低级错误。CC 和 Codex 在这类任务上的碾压性优势正源于此。
2. 多任务、短平快的广度探索场景(推荐渐进式披露)
-
典型场景: 需要偶尔查天气、偶尔发邮件、偶尔搜网页的个人助手。
-
理由: 功能极度离散,全量注入无用功能纯属浪费。此时渐进式系统的灵活性占优。
-
优化建议: Hermes 这类系统如果想在编程领域挑战 CC,需要解决 “渐进式缓存的难题”。如果能将 Skill 的注入做到“挂载到现有前缀之后”而不破坏前缀缓存,或者通过并行推理来预判需要的 Skill,或许能兼具灵活与成本优势。
四、 结语
很多人看 Hermes,觉得它是 OpenClaw 的轻量继承人;但实际体验下来,它更像是一场“ Skills 渐进式架构”的社会实验。
Claude Code 和 Codex 选择的道路,是相信“上下文工程的终局是缓存”,用全量的确定性和缓存的高命中率,保证大模型最宝贵的品质——逻辑连贯性。毕竟,对于真正的深度编码工作,最贵的不是 Token,而是在关键时刻 AI 的“灵光一闪”被打断的代价。
你关于“切换开销导致思维断片”的直觉非常敏锐,这恰恰是当前 Agent 架构设计中,工程优化与认知科学碰撞出的核心火花。
那么,你在日常 Coding 中,更愿意用那种“一键梭哈”的全量提示词,还是那种“按需加载”的精细 Skill 系统呢?欢迎在评论区分享你的看法。
更多推荐


所有评论(0)