导语:
最近深度体验了Claude Code (CC)、OpenCodex (Codex) 以及被称为 “OpenClaw 继承人” 的 Hermes。原以为 Hermes 这种复杂的 Skills 系统会是“Token 吞噬兽”,实测却发现事实并非如此。CC 和 Codex 虽然每次都全量输入系统提示词,但凭借缓存机制反而能“薅羊毛”;而看似轻量灵活的 Hermes,却在缓存命中率上吃了亏。这背后,其实是两种截然不同的 Agent 架构哲学:“全量暴露”与“渐进式披露”。本文将结合实测数据,聊聊这两种方案对逻辑严谨性、Token 消耗以及“思维连贯性”的影响。


一、 先打破刻板印象:谁的 Token 在燃烧?

在测试前,我有一个刻板印象:

  • CC/Codex: 上来就把工具定义、编码规范、运行环境一股脑塞进 System Prompt,每次对话都是“庞然大物”,Token 肯定扛不住。

  • Hermes: 号称轻量、基于 Skills 动态加载,按需取用,听起来就很“省”。

实测后的反差:

  1. Claude Code / Codex(全量派):
    它们的系统提示词确实大,且每一次请求几乎都是相同且全量的。但关键在于,对于这种“每次请求高度一致”的巨型前缀,LLM 服务商(如 Anthropic 的 Prompt Caching)能完美命中缓存。
    结果: 虽然绝对 Token 量很大,但实际计费的增量 Token 很少,写入一次,后续全是读取缓存的低价甚至免费 Token。这是“看似粗放,实则精算”的工程学胜利。

  2. Hermes(渐进派):
    Hermes 的核心是 Skills 系统。它只在需要时注入特定 Skill 的提示词,平时系统提示词很瘦。但问题在于,每切换一个 Skill,上下文的结构就变了。对于缓存机制来说,前缀没变,中间插入或替换了新的 Skill 定义,导致缓存前缀失效。
    结果: 虽然单次输入的绝对量少了,但每次都要重新计算缓存,缓存命中率极低,综合成本并没有想象中低。这是“看似精打细算,实则错过缓存红利”的遗憾。


二、 架构哲学对决:全量暴露 vs. 渐进式披露

这不仅仅是成本账,更是两种设计哲学的分野。

1. 全量暴露(Monolithic Exposure)—— 以 CC/Codex 为例

模式: 将所有能力平铺直叙。

  • 优点:

    • 缓存亲和性极佳: 系统提示词静态不变,完美适配当前主流的大模型上下文缓存架构。

    • 逻辑极其严谨: 模型在推理一开始就拥有“上帝视角”,知道所有能用的工具和规则。不会因为中途突然蹦出来一个新 Skill 而打断原有的推理链条,适合复杂的代码重构、跨文件修改等需要极强全局观的任务。

    • 思维不“断片”: 没有动态注入的干扰,模型注意力分布稳定。

  • 缺点:

    • 臃肿: 如果工具集过大,全量塞入会挤压有效上下文窗口。

    • 干扰: 过多的无关功能描述可能会在复杂指令下误导模型的注意力。

2. 渐进式披露(Progressive Disclosure)—— 以 Hermes 为例

模式: Hermes 本质是一个基于 Skills 系统的产品。只暴露核心元能力,具体技能通过调度实时注入。

  • 优点:

    • 轻量启动: 初始上下文极简,响应快,注意力集中。

    • 按需扩展: 理论上可以挂载无限多的 Skills,而不会在不需要时挤占窗口。

    • 关注点分离: 开发者可以独立维护不同的 Skill,架构极其优雅。

  • 陷阱:

    • 缓存失效: 动态注入破坏了上下文的静态性,导致每次调用都可能触发昂贵的全量重计算。

    • 思维“断片”风险: 这是你提到的关键点。当模型处理一个复杂任务时,如果需要中途检索并注入新 Skill,上下文会发生突变。这种结构性的断裂极易导致模型遗忘最初的约束,或者产生逻辑上的“颠簸”。就像你在做数学题时,每做一步都要去翻看一本新发下来的参考书,思路容易被打断。


三、 场景适配:何时“全量”,何时“渐进”?

结合你的对比,我们可以得出以下选型建议:

1. 复杂、长链条的逻辑严谨场景(推荐全量暴露)

  • 典型场景: 大型重构、DevOps 自动化脚本、需要严格遵循企业规范的代码生成。

  • 理由: 这类任务要求模型自始至终记住所有底线和规范。切换提示词和 Skills 的开销不仅是 Token 成本,更是认知成本。 全量暴露虽然暴力,但保证了思维链条的平顺,避免了“思维断片”引发的幻读或低级错误。CC 和 Codex 在这类任务上的碾压性优势正源于此。

2. 多任务、短平快的广度探索场景(推荐渐进式披露)

  • 典型场景: 需要偶尔查天气、偶尔发邮件、偶尔搜网页的个人助手。

  • 理由: 功能极度离散,全量注入无用功能纯属浪费。此时渐进式系统的灵活性占优。

  • 优化建议: Hermes 这类系统如果想在编程领域挑战 CC,需要解决 “渐进式缓存的难题”。如果能将 Skill 的注入做到“挂载到现有前缀之后”而不破坏前缀缓存,或者通过并行推理来预判需要的 Skill,或许能兼具灵活与成本优势。


四、 结语

很多人看 Hermes,觉得它是 OpenClaw 的轻量继承人;但实际体验下来,它更像是一场“ Skills 渐进式架构”的社会实验。

Claude Code 和 Codex 选择的道路,是相信“上下文工程的终局是缓存”,用全量的确定性和缓存的高命中率,保证大模型最宝贵的品质——逻辑连贯性。毕竟,对于真正的深度编码工作,最贵的不是 Token,而是在关键时刻 AI 的“灵光一闪”被打断的代价。

你关于“切换开销导致思维断片”的直觉非常敏锐,这恰恰是当前 Agent 架构设计中,工程优化与认知科学碰撞出的核心火花。

那么,你在日常 Coding 中,更愿意用那种“一键梭哈”的全量提示词,还是那种“按需加载”的精细 Skill 系统呢?欢迎在评论区分享你的看法。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐