看完这篇,你就知道你的钱是怎么被一个字一个字吃掉的了。


先搞懂:什么是 Token?

Token 不是"字",也不是"词"。它是模型切割文本的最小单位。

  • 英文大概 1 个单词 ≈ 1.3 个 token
  • 中文大概 1 个汉字 ≈ 1.5-2 个 token

你以为你打了 10 个字?模型看到的可能是 20 个 token。中文用户天然吃亏,认了吧。


三种 Token,三种价格

Claude Opus 4.7 为例(2025 年最强推理模型):

类型 单价(每百万 token) 通俗解释
输入 Token $15 你说的话
输出 Token $75 模型回的话
缓存命中 Token $1.50 模型说"这段我记得,不用重新看"
缓存写入 Token $18.75 第一次存缓存的成本

没看错,输出比输入贵 5 倍


一、输入 Token(Input)—— $15 / 百万

这是什么?

你喂给模型的所有东西:

  • 你打的那句话
  • 系统提示词(system prompt)
  • 之前的对话历史
  • 上传的文件内容
  • 工具定义、函数描述

关键认知

你以为你就问了一句"帮我写个函数"?

实际上模型收到的是:

[系统提示词 3000 token]
[工具定义 2000 token]
[前 10 轮对话 8000 token]
[你的问题 50 token]
─────────────────────
总计:13,050 个输入 token
费用:$0.20

对话越长,每一轮的输入成本越高。因为历史对话每次都要重新发送。这不是 bug,这是架构决定的——模型没有"记忆",每次都是从头看。


二、输出 Token(Output)—— $75 / 百万

这是什么?

模型生成的回复内容。一个字一个字往外蹦的那些。

为什么这么贵?

输入可以并行处理(一次性全看完),输出必须串行生成(前一个字决定后一个字)。GPU 一直被占着,算力成本高,所以贵 5 倍。

实际感受

模型回复 1000 字(约 1500-2000 token):

2000 token × $75 / 1,000,000 = $0.15

一毛五。看着不多?你一天问 100 次试试。

省钱技巧

  • 让模型简洁回答,别废话
  • 不需要解释的时候说"直接给代码"
  • 用 Haiku 处理简单任务(输出只要 $1.25/百万)

三、缓存命中 Token(Cache Hit)—— $1.50 / 百万

这是什么?

这是 Anthropic 给你省钱的机制。

每次请求,你发送的内容前面一大段(系统提示词、规则文件、工具定义)其实跟上次一模一样。Prompt Cache 的逻辑是:

"这段我 5 分钟内刚处理过,结果还在,不用重新算了。"

命中缓存的 token 只收 正常输入价的 10%

举个例子

你的系统提示词有 10,000 token:

场景 费用
无缓存(全价输入) 10,000 × $15/M = $0.15
命中缓存 10,000 × $1.50/M = $0.015

省了 90%。

缓存的规则

  1. TTL 5 分钟:超过 5 分钟没有请求,缓存过期,下次又要全价
  2. 前缀匹配:必须从头开始完全一致。中间改一个字,后面全部失效
  3. 最少 1024 token:太短的内容不会被缓存
  4. 首次写入要加钱:缓存写入是 $18.75/百万(比普通输入贵 25%),但后续命中只要 $1.50,很快回本

为什么 Claude Code 把规则文件放最前面?

因为这些内容每次请求都一样,放前面最容易命中缓存。如果你把变化的内容插到中间,后面的缓存全废了。


实战算账

假设你用 Claude Opus 4.7 写代码,一次典型请求:

组成部分 Token 数 类型 费用
系统提示词 + 规则 8,000 缓存命中 $0.012
工具定义 3,000 缓存命中 $0.0045
历史对话(前几轮) 5,000 缓存命中 $0.0075
本轮新增内容 2,000 正常输入 $0.03
模型回复 3,000 输出 $0.225
总计 21,000 ≈ $0.28

一次对话两毛八。一天高强度用 200 次 = $56/天

如果没有缓存,光输入就要 $0.27,加上输出总共 $0.50。缓存帮你省了将近一半。


各模型价格对比

模型 输入 输出 缓存命中 定位
Opus 4.7 $15 $75 $1.50 最强推理,烧钱王
Sonnet 4.6 $3 $15 $0.30 性价比之王,日常主力
Haiku 4.5 $0.80 $4 $0.08 便宜量大,简单任务

Opus 的输出价格是 Haiku 的 18.75 倍。想清楚再用。


省钱心法

  1. 能用 Sonnet 别用 Opus:90% 的编码任务 Sonnet 够用
  2. 控制对话长度:对话越长,每轮输入越贵。适时开新对话
  3. 保持缓存热度:5 分钟内持续使用,别让缓存过期
  4. 减少输出废话:告诉模型"简洁回答"、"不要解释"
  5. 批量处理:用 Batch API 可以打 5 折(但要等几小时)
  6. 别传大文件当聊天背景:一个 10MB 的文件可能是几万 token,每轮都重新算钱

一句话总结

输入是点菜钱,输出是加工费,缓存是老顾客折扣。 Opus 是米其林三星,Sonnet 是高级食堂,Haiku 是沙县小吃。 选对餐厅比吃得少更重要。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐