7 个实用技巧，让 Claude Code 的 Token 消耗暴降 80%

我之前开了 6 个 MCP Server：chrome-devtools、github、filesystem、brave-search、puppeteer、database。有一次用 /context 看了一下，

王中阳Go

400人浏览 · 2026-05-22 13:33:48

王中阳Go · 2026-05-22 13:33:48 发布

兄弟们，见字如面，我是阳哥。

最近有个学员跑来跟我吐槽：「阳哥，Claude Code 太香了，但账单也太香了——一天烧了 40 多刀，我差点以为信用卡被盗刷了。」

我让他把使用习惯说了一下：一个会话聊了 3 小时没清过上下文，提示词写得像写作文，MCP 服务器开了 6 个全挂在后台……我直接说：你这不是 Claude Code 贵，是你用得太「奢侈」了。

说实话，这确实是大多数人的状态。用 Claude Code 写代码，刚开始觉得便宜得像白嫖，聊着聊着账单就上去了。有人 7 美金能用 2 小时，有人 7 美金 20 分钟就没了——差距不在工具，在用法。

今天我把实测 200+ 小时踩出来的 7 个省 Token 技巧整理出来，每一条都是我自己验证过的，组合使用，Token 消耗降 80% 真不是吹的。

先搞懂一件事：你的 Token 花在哪了？

在讲技巧之前，你得先知道钱花在了哪儿。

Token 是 AI 的计价单位，你就当它是"燃料"——用多少烧多少钱。1000 Token 大约等于 750 个英文单词，或者 500 个汉字。一行代码大概 5 到 15 个 Token。

但关键不在于"一问一答花了多少"，而在于一个隐藏的机制：上下文滚雪球。

每次你跟 Claude Code 对话，它都会把之前所有的聊天记录带上。你聊了 2 小时，发了 30 条消息，第 31 条哪怕只问了"改个颜色"，Claude 读取的却是整个 2 小时的完整上下文。有人做过实测：同一个三词提问，第 1 条消息花费 0.0018 美元，到第 260 条消息，花费变成了 2.41 美元——1338 倍的差距，就因为上下文在滚雪球。

更扎心的是，输出 Token 的价格是输入的 5 倍。以 Claude Sonnet 4.5 为例，输入 3 美元/百万 Token，输出 15 美元/百万 Token。让 AI 说废话，是最昂贵的浪费。

搞懂了这个底层逻辑，后面 7 个技巧就很好理解了——说白了，都是在给上下文"减肥"。

技巧一：精准提示词——一句话干掉 80% 的探索开销

这是投入产出比最高的一个技巧，改一下提问方式，立竿见影。

很多人的习惯是这么问的：

帮我看看登录功能有什么问题

这句话在 Claude 看来等于：我不知道问题在哪，你帮我在整个项目里找找看。然后它就开始 Glob 扫目录、Grep 搜关键词、Read 读文件，一轮探索下来，消耗 15000 到 25000 Token，最后还可能理解偏了。

换一种写法：

查看 src/auth/login.ts 第 45 行，JWT 验证里 exp 字段没检查，加上过期时间校验，过期时抛 AuthExpiredError

同样的目的，Claude 只需要 Read 一次文件、Edit 一次代码，3000 到 5000 Token 搞定。省了 70% 到 80%。

我总结了一个公式，每次提问照着填就行：

做什么 + 在哪个文件 + 具体改什么 + 用什么方式

还有一个很多人忽略的招：告诉 Claude 不要做什么。主动限制行为范围，能大幅砍掉无用输出。

修改 login.ts 中的密码校验逻辑。不需要修改其他文件，不需要添加测试，不需要解释原理，直接给出修改后的代码。

一句"不需要解释"，少则省 500 Token，多则省 2000 Token。一张表记住常用限制语：

限制语	效果
不需要解释	减少 500-2000 输出 Token
只修改这个文件	避免 Claude 连带改其他文件
不需要写测试	省掉测试代码生成
简洁回复	整体输出减少 30%-50%
不要读取其他文件	阻止不必要的文件读取
只看这个函数	避免读取整个文件

一句话原则：你给的信息越精准，Claude 浪费的 Token 越少。

技巧二：/compact 和 /clear——对话管理的黄金节奏

如果说技巧一是在"少花钱"，那这个技巧就是在"及时止损"。

Claude Code 提供了两个关键命令：/compact 和 /clear。很多人要么不知道，要么想不起来用，结果上下文越滚越大，每一句话都在为之前的废话买单。

/compact 是有损压缩。它会把之前的对话历史压缩成一段摘要，从 25000 Token 压到 3000 Token 左右，节省 80% 以上。但压缩是有损的，一些细节可能丢失，所以你可以指定保留什么：

/compact 保留所有代码修改记录和文件路径，丢弃分析过程

什么时候用 /compact？我自己的节奏是：对话超过 5 轮、完成一个子任务准备开始下一个、或者感觉 Claude 响应变慢了——上下文太长会拖慢速度。

/clear 是彻底清空，直接归零。当你完全切换任务时用它，比如从项目 A 切到项目 B，或者从写功能切到修 Bug。

一个很多人踩的坑：一个会话用到底，从早聊到晚。上下文积累到 10 万 Token 以上，Claude 开始"失忆"——忘了最初的设定，开始重复甚至胡编。最后不得不回滚重来，前面花的 Token 全白费了。

我自己的习惯是：一个会话只解决一个独立任务。任务完成，/compact 或 /clear，绝不拖泥带水。

还有一个进阶用法：阶段性总结后重置。当你完成一个重要模块，对 Claude 说："总结当前项目状态到 progress.md，然后我将开新会话继续。"关键信息沉淀到文件里，新会话通过 @progress.md 快速恢复认知，用极低 Token 实现无缝衔接。

一句话原则：每一条消息都在为整个上下文买单，及时清理就是省钱。

技巧三：CLAUDE.md 瘦身 + Skills 迁移——一次配置，永久省 Token

CLAUDE.md 是 Claude Code 的项目级记忆文件，放在项目根目录，Claude 每次启动都会自动读取。很多人把这个文件当成了"项目百科全书"，什么都往里塞——技术栈、代码规范、目录结构、部署流程、常见问题……一个文件写了 3000 Token。

问题是：CLAUDE.md 里的每一个字，都会在每次对话时被读取。你写了 3000 Token 的背景介绍，等于每条消息都多花 3000 Token 的输入成本。聊 50 轮，就是 15 万 Token 的纯浪费。

怎么做？两步就够。

第一步：给 CLAUDE.md 瘦身。 只放最核心、最频繁使用的规则，比如项目技术栈、关键目录、禁止使用的技术。那些"偶尔会用到"的信息，别放进去。

第二步：把指令迁移到 Skills 里。 这是 Claude Code 官方推荐的做法。Skills 是一种按需加载的指令系统——只有当你触发特定任务时，对应的指令才会被加载到上下文里。不触发就不消耗。

举个实际例子。你之前在 CLAUDE.md 里写了 500 字的"代码审查规范"，每次对话都带着。现在把它迁移到一个叫 code-review 的 Skill 里，只有你让 Claude 做代码审查时，这 500 字才会被读取。其他时候，零消耗。

Anthropic 官方文档明确说了：把 CLAUDE.md 里的指令迁移到 Skills，是减少 Token 消耗的推荐方式。 实测效果：CLAUDE.md 从 3000 Token 瘦到 500 Token，每次对话直接省 2500 输入 Token。

一句话原则：CLAUDE.md 只放高频规则，低频指令全扔进 Skills。

技巧四：.claudeignore——从源头掐断噪音

这个技巧太简单了，但用的人少得离谱。

你的项目里，有多少文件是 Claude 永远不需要看的？node_modules、dist、build、.git、vendor、lock 文件、生成的 protobuf 代码、第三方 SDK……这些文件又大又没用，但 Claude Code 如果不告诉它，它就有可能去读。

.claudeignore 的作用和 .gitignore 一模一样——放在项目根目录，告诉 Claude Code 哪些文件和目录不需要关注。被忽略的文件不会被读取、不会被搜索、不会进入上下文。

一份实用的 .claudeignore 模板：

node_modules/
dist/
build/
.git/
vendor/
*.lock
*.min.js
*.min.css
*.map
*.pb.go
coverage/
__pycache__/

效果有多明显？拿一个中型前端项目来说，node_modules 加上 dist 和 lock 文件，可能有几万个文件、数百万 Token 的内容。加上 .claudeignore 之后，Claude Code 的"视野"瞬间干净了，搜索代码更快，读取文件更精准，上下文污染大幅降低。

一句话原则：不让 Claude 看垃圾，它就不会花 Token 读垃圾。

技巧五：MCP Server 按需开关——每个工具都在偷你的 Token

这个坑我踩过，而且踩得很疼。

MCP（Model Context Protocol）服务器是 Claude Code 的插件系统，可以连接浏览器、数据库、GitHub、搜索引擎等外部工具。很强大，但有一个隐藏代价：每个 MCP Server 的工具定义，都会在每次对话时被加载到系统提示词里。

我之前开了 6 个 MCP Server：chrome-devtools、github、filesystem、brave-search、puppeteer、database。有一次用 /context 看了一下，MCP tools 占了 19200 Token——占了整个上下文的快 10%。而那次对话，我实际只用了 filesystem 一个工具。其他 5 个的 Token，纯纯浪费。

更离谱的是，chrome-devtools 一个服务器就占了 651 Token 的工具定义，但如果你做的是纯后端开发，它完全用不上。

怎么做？按需开关。

如果你当前任务只用文件系统，就只开 filesystem 这一个 MCP Server。做前端调试时再开 chrome-devtools，用完关掉。

Claude Code 最近还推出了 MCP-CLI 模式——工具定义不再全量加载到系统提示词里，而是按需获取。**这个功能可以把 MCP 相关的 Token 消耗降低 85%。**如果你的 Claude Code 版本支持，强烈建议开启。

另外，定期用 /context 命令看一下你的 MCP 工具占了多少 Token，心里有数才能对症下药。

一句话原则：不用的 MCP Server 就关掉，每个工具都在悄悄偷你的 Token。

技巧六：模型分层调用——别用大炮打蚊子

Claude Code 支持多个模型，不同模型的能力和价格天差地别。

以当前主流模型为例：Haiku 便宜快速，适合简单任务；Sonnet 能力和速度均衡，是日常开发的主力；Opus 最强最贵，适合复杂架构设计和深度推理。

很多人的习惯是全程用 Sonnet 甚至 Opus，不管什么任务都上最强的。改个 CSS 颜色用 Opus？那是用大炮打蚊子。

正确的做法是按任务复杂度选模型：

简单任务——改个变量名、修个拼写错误、格式化代码、写个简单函数——用 Haiku 就够了，成本是 Sonnet 的十分之一，速度还快。

日常开发——写功能、修 Bug、重构代码——用 Sonnet，性价比最高。

复杂推理——架构设计、技术选型、多系统联调——上 Opus，该花的时候不省。

在 Claude Code 里切换模型很简单，用 /model 命令就行。你也可以在 CLAUDE.md 里设置默认模型，日常开发默认用 Sonnet，需要的时候手动切。

还有一个小技巧：Extended Thinking（扩展思考）按需开启。这个功能让 Claude 在回答前进行深度推理，对复杂任务很有用，但会显著增加 Token 消耗——思考过程的 Token 也要算钱。简单任务别开，开了就是白烧钱。

一句话原则：杀鸡用鸡刀，杀牛用牛刀，别什么都上最贵的。

技巧七：子代理拆解大任务——主对话保持干净

这是 7 个技巧里最"高级"的一个，但一旦理解了，效果极其明显。

Claude Code 支持子代理（sub-agent），它们跑在独立的上下文里，完成阶段性工作后自动退出，不污染主对话。

什么意思呢？假设你在做一个大功能，需要先搜索整个代码库找到所有用到某个函数的地方，然后逐一修改。如果直接在主对话里做，搜索结果会塞满上下文，后面每条消息都带着这些"临时垃圾"。

换一种方式：把"搜索所有用到 x 的地方"这种一次性探索任务扔给子代理。它跑完给你一个精简的结果列表，然后退出。主对话的上下文保持干净，只留下你真正需要的信息。

哪些任务适合交给子代理？我总结了几类：

搜索探索类——在代码库里找所有引用、搜索特定模式、统计代码行数。这些任务会产生大量中间结果，但最终只需要一个摘要。

信息收集类——读取多个文件并汇总、分析项目依赖关系、检查配置一致性。读完就完了，不需要留在上下文里。

独立验证类——跑测试看结果、检查代码风格、验证构建是否成功。结果只有通过/不通过，不需要保留完整日志。

实测效果：一个复杂任务，直接在主对话做，上下文可能膨胀到 8 万 Token；用子代理拆解后，主对话始终控制在 3 万 Token 以内。

一句话原则：脏活累活交给子代理，主对话只留精华。

7 个技巧的叠加效应

这 7 个技巧是独立的、可叠加的。你不需要一口气全用上，先从最简单的提示词和 /clear 开始，效果立竿见影，再慢慢加上其他技巧就行。

最后给你一张速查表：

技巧	核心动作	预估节省
精准提示词	用公式写提示词 + 限制范围	单次请求省 70%-80%
/compact 和 /clear	定期压缩和清空上下文	上下文省 50%-80%
CLAUDE.md 瘦身	只放高频规则，低频迁移到 Skills	每次对话省 2000+ Token
.claudeignore	排除无关文件和目录	避免数万 Token 的垃圾读取
MCP 按需开关	只开当前任务需要的 MCP Server	MCP Token 省 50%-85%
模型分层调用	简单用 Haiku，日常用 Sonnet，复杂用 Opus	简单任务成本降 90%
子代理拆解	搜索探索类任务交给子代理	主对话上下文省 60%+

省 Token 不是抠门，是让每一分钱都花在刀刃上。上下文越干净，Claude 的回答越精准。省钱和提效，从来都是一件事。

如果你也在用 Claude Code，试试这 7 个技巧，回来告诉我你省了多少。评论区聊聊你的省 Token 妙招，我会在评论区补充一些实测数据和更细节的配置方法。

关注我，后面还会出更多 AI 相关的实用技巧，咱们一起把 AI 编程的性价比拉满。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

后端接入 AI Agent：Tool Calling 网关、幂等与审计日志实战

AI Agent技术社区

AI导出鸭惊了！DeepSeek代码手机导出保姆级实操，不看亏一套海景房

AI Agent技术社区

OpenClaw vs Hermes Agent：企业级执行 vs 自我进化，一文读懂怎么选！

AI Agent 开源双子星深度对比：OpenClaw（GitHub 26.4w⭐）主打工程化落地，四层记忆+20+渠道+13,700+技能，适合企业自动化；Hermes Agent（53天10w⭐）主打闭环学习，四级记忆+自动技能进化+3,200+社区技能，越用越聪明。两者可互补组合：OpenClaw 做稳定执行引擎，Hermes 做持续学习大脑。短期落地选 OpenClaw，长期陪伴选 Her