大模型Token收费指南:以 Claude Opus 4.7 为例
看完这篇,你就知道你的钱是怎么被一个字一个字吃掉的了。
先搞懂:什么是 Token?
Token 不是"字",也不是"词"。它是模型切割文本的最小单位。
- 英文大概 1 个单词 ≈ 1.3 个 token
- 中文大概 1 个汉字 ≈ 1.5-2 个 token
你以为你打了 10 个字?模型看到的可能是 20 个 token。中文用户天然吃亏,认了吧。
三种 Token,三种价格
以 Claude Opus 4.7 为例(2025 年最强推理模型):
| 类型 | 单价(每百万 token) | 通俗解释 |
|---|---|---|
| 输入 Token | $15 | 你说的话 |
| 输出 Token | $75 | 模型回的话 |
| 缓存命中 Token | $1.50 | 模型说"这段我记得,不用重新看" |
| 缓存写入 Token | $18.75 | 第一次存缓存的成本 |
没看错,输出比输入贵 5 倍。
一、输入 Token(Input)—— $15 / 百万
这是什么?
你喂给模型的所有东西:
- 你打的那句话
- 系统提示词(system prompt)
- 之前的对话历史
- 上传的文件内容
- 工具定义、函数描述
关键认知
你以为你就问了一句"帮我写个函数"?
实际上模型收到的是:
[系统提示词 3000 token]
[工具定义 2000 token]
[前 10 轮对话 8000 token]
[你的问题 50 token]
─────────────────────
总计:13,050 个输入 token
费用:$0.20
对话越长,每一轮的输入成本越高。因为历史对话每次都要重新发送。这不是 bug,这是架构决定的——模型没有"记忆",每次都是从头看。
二、输出 Token(Output)—— $75 / 百万
这是什么?
模型生成的回复内容。一个字一个字往外蹦的那些。
为什么这么贵?
输入可以并行处理(一次性全看完),输出必须串行生成(前一个字决定后一个字)。GPU 一直被占着,算力成本高,所以贵 5 倍。
实际感受
模型回复 1000 字(约 1500-2000 token):
2000 token × $75 / 1,000,000 = $0.15
一毛五。看着不多?你一天问 100 次试试。
省钱技巧
- 让模型简洁回答,别废话
- 不需要解释的时候说"直接给代码"
- 用 Haiku 处理简单任务(输出只要 $1.25/百万)
三、缓存命中 Token(Cache Hit)—— $1.50 / 百万
这是什么?
这是 Anthropic 给你省钱的机制。
每次请求,你发送的内容前面一大段(系统提示词、规则文件、工具定义)其实跟上次一模一样。Prompt Cache 的逻辑是:
"这段我 5 分钟内刚处理过,结果还在,不用重新算了。"
命中缓存的 token 只收 正常输入价的 10%。
举个例子
你的系统提示词有 10,000 token:
| 场景 | 费用 |
|---|---|
| 无缓存(全价输入) | 10,000 × $15/M = $0.15 |
| 命中缓存 | 10,000 × $1.50/M = $0.015 |
省了 90%。
缓存的规则
- TTL 5 分钟:超过 5 分钟没有请求,缓存过期,下次又要全价
- 前缀匹配:必须从头开始完全一致。中间改一个字,后面全部失效
- 最少 1024 token:太短的内容不会被缓存
- 首次写入要加钱:缓存写入是 $18.75/百万(比普通输入贵 25%),但后续命中只要 $1.50,很快回本
为什么 Claude Code 把规则文件放最前面?
因为这些内容每次请求都一样,放前面最容易命中缓存。如果你把变化的内容插到中间,后面的缓存全废了。
实战算账
假设你用 Claude Opus 4.7 写代码,一次典型请求:
| 组成部分 | Token 数 | 类型 | 费用 |
|---|---|---|---|
| 系统提示词 + 规则 | 8,000 | 缓存命中 | $0.012 |
| 工具定义 | 3,000 | 缓存命中 | $0.0045 |
| 历史对话(前几轮) | 5,000 | 缓存命中 | $0.0075 |
| 本轮新增内容 | 2,000 | 正常输入 | $0.03 |
| 模型回复 | 3,000 | 输出 | $0.225 |
| 总计 | 21,000 | ≈ $0.28 |
一次对话两毛八。一天高强度用 200 次 = $56/天。
如果没有缓存,光输入就要 $0.27,加上输出总共 $0.50。缓存帮你省了将近一半。
各模型价格对比
| 模型 | 输入 | 输出 | 缓存命中 | 定位 |
|---|---|---|---|---|
| Opus 4.7 | $15 | $75 | $1.50 | 最强推理,烧钱王 |
| Sonnet 4.6 | $3 | $15 | $0.30 | 性价比之王,日常主力 |
| Haiku 4.5 | $0.80 | $4 | $0.08 | 便宜量大,简单任务 |
Opus 的输出价格是 Haiku 的 18.75 倍。想清楚再用。
省钱心法
- 能用 Sonnet 别用 Opus:90% 的编码任务 Sonnet 够用
- 控制对话长度:对话越长,每轮输入越贵。适时开新对话
- 保持缓存热度:5 分钟内持续使用,别让缓存过期
- 减少输出废话:告诉模型"简洁回答"、"不要解释"
- 批量处理:用 Batch API 可以打 5 折(但要等几小时)
- 别传大文件当聊天背景:一个 10MB 的文件可能是几万 token,每轮都重新算钱
一句话总结
输入是点菜钱,输出是加工费,缓存是老顾客折扣。 Opus 是米其林三星,Sonnet 是高级食堂,Haiku 是沙县小吃。 选对餐厅比吃得少更重要。
更多推荐


所有评论(0)