从Claude Code到Hermes：论AI Agent的“全量暴露”与“渐进式披露”架构之争

摘要：本文对比了ClaudeCode/Codex（全量暴露）和Hermes（渐进式披露）两种AI编程助手的架构差异。测试发现，全量暴露方案虽提示词庞大，但凭借缓存机制实际Token消耗更低，且能保持思维连贯性；而渐进式披露虽看似轻量，却因缓存命中率低导致综合成本更高，且存在思维断片风险。文章建议：复杂编程任务适合全量暴露，短平快场景可选渐进式披露，并指出优化缓存机制是渐进式方案的关键挑战。

qq_36710118

180人浏览 · 2026-05-23 15:09:25

qq_36710118 · 2026-05-23 15:09:25 发布

导语：
最近深度体验了Claude Code (CC)、OpenCodex (Codex) 以及被称为 “OpenClaw 继承人” 的 Hermes。原以为 Hermes 这种复杂的 Skills 系统会是“Token 吞噬兽”，实测却发现事实并非如此。CC 和 Codex 虽然每次都全量输入系统提示词，但凭借缓存机制反而能“薅羊毛”；而看似轻量灵活的 Hermes，却在缓存命中率上吃了亏。这背后，其实是两种截然不同的 Agent 架构哲学：“全量暴露”与“渐进式披露”。本文将结合实测数据，聊聊这两种方案对逻辑严谨性、Token 消耗以及“思维连贯性”的影响。

一、先打破刻板印象：谁的 Token 在燃烧？

在测试前，我有一个刻板印象：

CC/Codex： 上来就把工具定义、编码规范、运行环境一股脑塞进 System Prompt，每次对话都是“庞然大物”，Token 肯定扛不住。
Hermes： 号称轻量、基于 Skills 动态加载，按需取用，听起来就很“省”。

实测后的反差：

Claude Code / Codex（全量派）：
它们的系统提示词确实大，且每一次请求几乎都是相同且全量的。但关键在于，对于这种“每次请求高度一致”的巨型前缀，LLM 服务商（如 Anthropic 的 Prompt Caching）能完美命中缓存。
结果： 虽然绝对 Token 量很大，但实际计费的增量 Token 很少，写入一次，后续全是读取缓存的低价甚至免费 Token。这是“看似粗放，实则精算”的工程学胜利。
Hermes（渐进派）：
Hermes 的核心是 Skills 系统。它只在需要时注入特定 Skill 的提示词，平时系统提示词很瘦。但问题在于，每切换一个 Skill，上下文的结构就变了。对于缓存机制来说，前缀没变，中间插入或替换了新的 Skill 定义，导致缓存前缀失效。
结果： 虽然单次输入的绝对量少了，但每次都要重新计算缓存，缓存命中率极低，综合成本并没有想象中低。这是“看似精打细算，实则错过缓存红利”的遗憾。

二、架构哲学对决：全量暴露 vs. 渐进式披露

这不仅仅是成本账，更是两种设计哲学的分野。

1. 全量暴露（Monolithic Exposure）—— 以 CC/Codex 为例

模式： 将所有能力平铺直叙。

优点：
- 缓存亲和性极佳： 系统提示词静态不变，完美适配当前主流的大模型上下文缓存架构。
- 逻辑极其严谨： 模型在推理一开始就拥有“上帝视角”，知道所有能用的工具和规则。不会因为中途突然蹦出来一个新 Skill 而打断原有的推理链条，适合复杂的代码重构、跨文件修改等需要极强全局观的任务。
- 思维不“断片”： 没有动态注入的干扰，模型注意力分布稳定。
缺点：
- 臃肿： 如果工具集过大，全量塞入会挤压有效上下文窗口。
- 干扰： 过多的无关功能描述可能会在复杂指令下误导模型的注意力。

2. 渐进式披露（Progressive Disclosure）—— 以 Hermes 为例

模式： Hermes 本质是一个基于 Skills 系统的产品。只暴露核心元能力，具体技能通过调度实时注入。

优点：
- 轻量启动： 初始上下文极简，响应快，注意力集中。
- 按需扩展： 理论上可以挂载无限多的 Skills，而不会在不需要时挤占窗口。
- 关注点分离： 开发者可以独立维护不同的 Skill，架构极其优雅。
陷阱：
- 缓存失效： 动态注入破坏了上下文的静态性，导致每次调用都可能触发昂贵的全量重计算。
- 思维“断片”风险： 这是你提到的关键点。当模型处理一个复杂任务时，如果需要中途检索并注入新 Skill，上下文会发生突变。这种结构性的断裂极易导致模型遗忘最初的约束，或者产生逻辑上的“颠簸”。就像你在做数学题时，每做一步都要去翻看一本新发下来的参考书，思路容易被打断。

三、场景适配：何时“全量”，何时“渐进”？

结合你的对比，我们可以得出以下选型建议：

1. 复杂、长链条的逻辑严谨场景（推荐全量暴露）

典型场景： 大型重构、DevOps 自动化脚本、需要严格遵循企业规范的代码生成。
理由： 这类任务要求模型自始至终记住所有底线和规范。切换提示词和 Skills 的开销不仅是 Token 成本，更是认知成本。 全量暴露虽然暴力，但保证了思维链条的平顺，避免了“思维断片”引发的幻读或低级错误。CC 和 Codex 在这类任务上的碾压性优势正源于此。

2. 多任务、短平快的广度探索场景（推荐渐进式披露）

典型场景： 需要偶尔查天气、偶尔发邮件、偶尔搜网页的个人助手。
理由： 功能极度离散，全量注入无用功能纯属浪费。此时渐进式系统的灵活性占优。
优化建议： Hermes 这类系统如果想在编程领域挑战 CC，需要解决 “渐进式缓存的难题”。如果能将 Skill 的注入做到“挂载到现有前缀之后”而不破坏前缀缓存，或者通过并行推理来预判需要的 Skill，或许能兼具灵活与成本优势。

四、结语

很多人看 Hermes，觉得它是 OpenClaw 的轻量继承人；但实际体验下来，它更像是一场“ Skills 渐进式架构”的社会实验。

Claude Code 和 Codex 选择的道路，是相信“上下文工程的终局是缓存”，用全量的确定性和缓存的高命中率，保证大模型最宝贵的品质——逻辑连贯性。毕竟，对于真正的深度编码工作，最贵的不是 Token，而是在关键时刻 AI 的“灵光一闪”被打断的代价。

你关于“切换开销导致思维断片”的直觉非常敏锐，这恰恰是当前 Agent 架构设计中，工程优化与认知科学碰撞出的核心火花。

那么，你在日常 Coding 中，更愿意用那种“一键梭哈”的全量提示词，还是那种“按需加载”的精细 Skill 系统呢？欢迎在评论区分享你的看法。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

聚合AI工具KULAAI：GPT、Claude、Gemini、DeepSeek热门模型一键使用

AI Agent技术社区

本地部署更安全！OpenClaw 数字员工搭建教程

AI Agent技术社区

NuminaMath-7B-CoT-openmind未来路线图：数学AI的发展方向

NuminaMath-7B-CoT-openmind作为一款专注于数学推理的AI模型，正引领着数学问题解决的智能化浪潮。本文将深入探讨这款数学AI的未来发展方向，为您揭示其在提升推理能力、扩展应用场景等方面的清晰路径。## 强化数学推理能力：迈向更高难度问题NuminaMath-7B-CoT-openmind目前已在AMC 12级别的数学竞赛问题上展现出一定的解题能力，但在AIME和数学奥