大模型Token收费指南：以 Claude Opus 4.7 为例

whyfail

703人浏览 · 2026-05-13 09:51:07

whyfail · 2026-05-13 09:51:07 发布

看完这篇，你就知道你的钱是怎么被一个字一个字吃掉的了。

先搞懂：什么是 Token？

Token 不是"字"，也不是"词"。它是模型切割文本的最小单位。

英文大概 1 个单词 ≈ 1.3 个 token
中文大概 1 个汉字 ≈ 1.5-2 个 token

你以为你打了 10 个字？模型看到的可能是 20 个 token。中文用户天然吃亏，认了吧。

三种 Token，三种价格

以 Claude Opus 4.7 为例（2025 年最强推理模型）：

类型	单价（每百万 token）	通俗解释
输入 Token	$15	你说的话
输出 Token	$75	模型回的话
缓存命中 Token	$1.50	模型说"这段我记得，不用重新看"
缓存写入 Token	$18.75	第一次存缓存的成本

没看错，输出比输入贵 5 倍。

一、输入 Token（Input）—— $15 / 百万

这是什么？

你喂给模型的所有东西：

你打的那句话
系统提示词（system prompt）
之前的对话历史
上传的文件内容
工具定义、函数描述

关键认知

你以为你就问了一句"帮我写个函数"？

实际上模型收到的是：

[系统提示词 3000 token]
[工具定义 2000 token]
[前 10 轮对话 8000 token]
[你的问题 50 token]
─────────────────────
总计：13,050 个输入 token
费用：$0.20

对话越长，每一轮的输入成本越高。因为历史对话每次都要重新发送。这不是 bug，这是架构决定的——模型没有"记忆"，每次都是从头看。

二、输出 Token（Output）—— $75 / 百万

这是什么？

模型生成的回复内容。一个字一个字往外蹦的那些。

为什么这么贵？

输入可以并行处理（一次性全看完），输出必须串行生成（前一个字决定后一个字）。GPU 一直被占着，算力成本高，所以贵 5 倍。

实际感受

模型回复 1000 字（约 1500-2000 token）：

2000 token × $75 / 1,000,000 = $0.15

一毛五。看着不多？你一天问 100 次试试。

省钱技巧

让模型简洁回答，别废话
不需要解释的时候说"直接给代码"
用 Haiku 处理简单任务（输出只要 $1.25/百万）

三、缓存命中 Token（Cache Hit）—— $1.50 / 百万

这是什么？

这是 Anthropic 给你省钱的机制。

每次请求，你发送的内容前面一大段（系统提示词、规则文件、工具定义）其实跟上次一模一样。Prompt Cache 的逻辑是：

"这段我 5 分钟内刚处理过，结果还在，不用重新算了。"

命中缓存的 token 只收 正常输入价的 10%。

举个例子

你的系统提示词有 10,000 token：

场景	费用
无缓存（全价输入）	10,000 × $15/M = $0.15
命中缓存	10,000 × $1.50/M = $0.015

省了 90%。

缓存的规则

TTL 5 分钟：超过 5 分钟没有请求，缓存过期，下次又要全价
前缀匹配：必须从头开始完全一致。中间改一个字，后面全部失效
最少 1024 token：太短的内容不会被缓存
首次写入要加钱：缓存写入是 $18.75/百万（比普通输入贵 25%），但后续命中只要 $1.50，很快回本

为什么 Claude Code 把规则文件放最前面？

因为这些内容每次请求都一样，放前面最容易命中缓存。如果你把变化的内容插到中间，后面的缓存全废了。

实战算账

假设你用 Claude Opus 4.7 写代码，一次典型请求：

组成部分	Token 数	类型	费用
系统提示词 + 规则	8,000	缓存命中	$0.012
工具定义	3,000	缓存命中	$0.0045
历史对话（前几轮）	5,000	缓存命中	$0.0075
本轮新增内容	2,000	正常输入	$0.03
模型回复	3,000	输出	$0.225
总计	21,000		≈ $0.28

一次对话两毛八。一天高强度用 200 次 = $56/天。

如果没有缓存，光输入就要 $0.27，加上输出总共 $0.50。缓存帮你省了将近一半。

各模型价格对比

模型	输入	输出	缓存命中	定位
Opus 4.7	$15	$75	$1.50	最强推理，烧钱王
Sonnet 4.6	$3	$15	$0.30	性价比之王，日常主力
Haiku 4.5	$0.80	$4	$0.08	便宜量大，简单任务

Opus 的输出价格是 Haiku 的 18.75 倍。想清楚再用。

省钱心法

能用 Sonnet 别用 Opus：90% 的编码任务 Sonnet 够用
控制对话长度：对话越长，每轮输入越贵。适时开新对话
保持缓存热度：5 分钟内持续使用，别让缓存过期
减少输出废话：告诉模型"简洁回答"、"不要解释"
批量处理：用 Batch API 可以打 5 折（但要等几小时）
别传大文件当聊天背景：一个 10MB 的文件可能是几万 token，每轮都重新算钱

一句话总结

输入是点菜钱，输出是加工费，缓存是老顾客折扣。 Opus 是米其林三星，Sonnet 是高级食堂，Haiku 是沙县小吃。选对餐厅比吃得少更重要。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

每日AI新闻推送 | 2026年6月12日

AI Agent技术社区

云客服是什么？2026 年 6 月最新核心技术解析与入门指南

AI Agent技术社区

大模型 API 聚合服务从工具走向基础设施：星链4SAPI的企业价值

它涵盖 GPT、Claude、Gemini 等主流模型，接入方式与 OpenAI 官方接口兼容，同时支持多模态数据处理、线路优化、人民币结算、企业级账务管理、国内备案主体等条件。迁移成本同样不可忽视。尤其是金融、教育、医疗、政企服务、ToB SaaS 等行业，供应商资质、备案状态、数据流向、费用凭证及合同主体都会被反复核查。从这个角度看，星链4SAPI 值得被重点评估，是因为它把国内企业真正关心的