Claude Fable 5 深度解读:Anthropic 史上最强模型,5000万行代码1天搞定
没有发布会,没有 CEO 演讲,只有一篇官方博客。但 Claude Fable 5 带来的震动,比任何发布会都大。
一、开篇:Anthropic 扔下一颗核弹
昨天,6月9日。
Anthropic 在官方博客低调发布了两款新模型:Claude Fable 5 和 Claude Mythos 5。
没有 Sam Altman 的 Twitter 预告,没有产品发布会,只有一篇技术文档和一张性能对比图。
但就是这篇"低调"的更新,直接刷新了 AI 能力的上限。
Claude Fable 5,是 Anthropic 迄今为止公开发布的最强模型。它属于"Mythos 级"——这是 Anthropic 对最高能力级别模型的命名。此前的 Claude Opus 4.7、Claude Opus 4.8,都还没到这个级别。
更震撼的是它的定价:$10 / 百万输入 tokens,$50 / 百万输出 tokens。比上一代 Claude Mythos Preview 便宜了一半以上。
这意味着什么?
意味着 AI 能力的天花板,再次被抬高了。
下面,我们来一层层拆解。
二、Fable 5 是什么?
Mythos 级模型首次向公众开放
Claude Fable 5 属于 Anthropic 的"Mythos"系列。
Anthropic 把自家模型按能力分为几个级别:
- Sonnet 级:轻量级,适合日常任务
- Haiku 级:入门级,便宜快速
- Opus 级:旗舰级,能力最强
- Mythos 级:超旗舰级,面向最难的知识工作和编码问题
Fable 5 是第一款向公众开放的 Mythos 级模型。
它的同门师兄 Claude Mythos 5,和它使用相同的底层架构,但取消了一部分安全限制——目前仅通过"Project Glasswing"项目,向美国政府网络安全机构和关键基础设施提供商开放。
换句话说:Fable 5 是 Mythos 5 的"安全版",Mythos 5 是 Fable 5 的"完全体"。
官方核心定位
“Fable 5’s capabilities exceed those of any model we’ve ever made generally available.”
翻译:Fable 5 的能力,超过了我们此前公开发布的任何模型。
这不是自吹,基准测试数据支撑了这个结论。
三、跑分屠榜:SOTA 的底气
Fable 5 在几乎所有测试基准上,都达到了业内领先(State-of-the-Art)。
软件工程基准
-
FrontierCode Diamond:29.3%(业内最高)
- 这个测试考察模型能否在高质量生产代码库中完成困难的编码任务
- Fable 5 在中等算力消耗下就已经拿到了最高分
-
SWE-Bench Pro:80.3%(据官方合作方数据)
- 软件工程任务的综合测试
- 需要模型完成真实代码库中的 Issue 修复
-
CursorBench:多位早期用户确认 Fable 5 是该基准的最高分模型
知识工作基准
-
Hebbia Finance Benchmark(高级推理):业内最高分
- 在基于文档的推理、图表解读、问题解决等任务上均有显著提升
-
GDPval-AA:1932(据搜索数据)
- 综合知识工作能力评估
-
Humanity’s Last Exam:59.0%(据搜索数据)
- 高难度综合推理测试
视觉基准
Fable 5 是 Anthropic 视觉能力最强的一款模型:
- 可以从详细科学图表中提取精确数字
- 可以仅凭截图重建 Web 应用的源代码
- 甚至能仅凭视觉输入通关游戏《宝可梦:红版》(Pokémon FireRed)——之前的 Claude 模型需要复杂的辅助工具,Fable 5 只需要纯视觉输入就能完成
一些对比图



早期用户证言
Anthropic 在官方博客中公布了一批早期用户的测试反馈(均为匿名或署名引用):
“Claude Fable 5 是 CursorBench 上的最高分模型。它开启了一类之前模型无法触及的长周期问题解决方案。”
—— Cursor 团队
“在我们的早期测试中,它以远超此前基准的自主性和可靠性,处理了复杂的长周期编码任务。”
—— GitHub 团队
“这是我们在 Claude 模型上见过的最强结果。在代理编程和原型设计方面,是一个明显的飞跃。”
—— 一位客户
“Fable 5 的推理比 Opus 4.8 高出一个台阶。它以高级研究科学家的水平工作——选择方向、分配资源、否定错误信念、产生原创性的第一性原理输出。”
—— 一位客户
四、惊人案例:5000万行代码,1天完成
光看基准测试,你可能还是觉得"就这?"
来看真实案例。
Stripe:将数月工程压缩到数天
Stripe 是全球领先的在线支付平台,他们是最早拿到 Fable 5 测试权限的企业之一。
Stripe 工程师的反馈原文:
“Fable 5 将数月的工程量压缩到了数天。”
具体来说,在一个涉及5000万行 Ruby 代码库的大型迁移任务中,Fable 5 仅用1天就完成了全部工作。
人工团队做同样的工作,需要两个多月。
其他早期反馈
- 编码效率:在 Claude Code 中处理复杂多代理工作流时,工程师用更少的轮次完成更复杂的工程
- 法律文书:盲测中,律师认为 Fable 5 的修改意见与当前模型"每次都能匹配或超越"
- 金融分析:是首个在复杂长周期分析任务核心基准上突破 90% 的模型(比 Opus 4.8 高出10个百分点)
- 物理研究:使用三分之一的推理 tokens,在36小时内达到了 GPT-5.5 四天后的水平
- 电子表格:在日常电子表格任务套件上,在所有算力级别都超越了 Opus 4.8,且完成速度快了25-30%
五、Opus 4.8 同步升级:代码"诚实度"提升4倍
Fable 5 发布的同时,Anthropic 也在5月28日推出了 Claude Opus 4.8——对 Opus 系列旗舰模型的重大升级。
注意:Opus 4.8 是 Fable 5 的"前置机型"。当 Fable 5 的安全分类器检测到某些高风险查询时,会自动 fallback 到 Opus 4.8 进行响应。
核心升级点
1. 代码"诚实度"提升4倍
你有没有遇到过这种情况:AI 自信满满地给你一段代码,你跑了一下,结果完全跑不通?
这就是 AI 领域的"虚假自信"问题。Opus 4.8 花大力气解决了这个毛病:
- 对代码中的错误或缺陷容忍度降低4倍
- 拥有更好的判断力——会质疑糟糕的方案
- 在向用户展示错误之前就会发现自身错误
- 遇到不确定情况时会坦诚相告,而不是硬编
2. 动态工作流(Dynamic Workflows)
这是 Opus 4.8 最有潜力的新功能:
- 可以将庞大的编程任务分解成更小的部分
- 可以同时启动并运行数百个并行子代理来解决大型问题
- 可以管理跨越数十万行代码的大规模代码库迁移
- 从项目启动到最终合并,全程自主执行
- 根据现有测试套件验证所有内容
这个功能目前已在 Claude Code(企业版、团队版和 Max 版)的研究预览版中提供。
3. 力度控制滑块(Effort Control)
现在你可以在 Claude.ai 和 Cowork 上手动选择 Claude 为任务分配的处理能力:
- 高投入模式:Claude 会进行更长时间的思考、更深入的推理,并反复检查其工作
- 最适合处理复杂的架构、棘手的调试或繁重的逻辑
六、Mythos 5 神秘面纱:为什么不能公开?
Fable 5 的同门兄弟 Claude Mythos 5,目前无法向公众开放。
原因很简单:它的能力太强了,强到有安全风险。
网络安全能力全球最强
Anthropic 明确表示:
“Mythos 5 拥有全球任何模型中最强的网络安全能力。”
这包括:
- 发现和利用软件漏洞
- 代理式黑客攻击(reconnaissance 侦察 → discovery 发现 → lateral movement 横向移动 → exploitation 利用,一气呵成)
这种能力如果落入恶意分子手中,可以造成严重危害。
生物和化学风险
Mythos 级别的模型,在生物和化学领域也展现了惊人能力:
- 在设计腺相关病毒(AAV,用于基因治疗载体)的任务上,Mythos 级别的模型仅凭生物推理就超越了专门的蛋白质语言模型
- 在药物设计流程中,内部蛋白质设计专家使用 Mythos 5 后,部分环节效率提升了约10倍
- 在一项研究中,Mythos 5(配合蛋白质设计和生物信息学工具,无需人工协助)找到或超越了熟练的人类操作员水平
- Mythos 5 已经产生了新颖的、令人信服的科学假说——在分子生物学领域,科学家在盲测中80%的时间都更认可 Mythos 的假说
安全措施
为了安全发布 Fable 5,Anthropic 做了以下工作:
- 安全分类器:在网络安全、生物化学、模型蒸馏等高风险领域,Fable 5 会自动 fallback 到 Opus 4.8
- 红队测试:进行了超过1000小时的内部红队测试,以及外部漏洞赏金计划(无人发现通用越狱)
- 保守调优:故意将安全分类器调得保守——宁可误拦,不可漏放
目前约 5% 的 Fable 5 会话会触发 fallback。用户会收到通知,告知他们的查询已被转移到 Opus 4.8。
七、定价与接入
官方定价(已确认)
| 模型 | 输入价格 | 输出价格 |
|---|---|---|
| Claude Fable 5 | $10 / 百万 tokens | $50 / 百万 tokens |
| Claude Opus 4.8 | $8 / 百万 tokens | $40 / 百万 tokens |
| Claude Opus 4.7 | $8 / 百万 tokens | $40 / 百万 tokens |
| Claude Sonnet 4.8 | $1.5 / 百万 tokens | $7.5 / 百万 tokens |
对比上一代:Claude Mythos Preview 的价格是 $25 / 百万输入 tokens。Fable 5 比它便宜了60%以上。
订阅服务:免费体验期
Anthropic 推出了分阶段上线策略:
- 即日起至 6 月 22 日:Pro、Max、Team 及企业版套餐用户可免费体验 Fable 5
- 6 月 23 日起:Fable 5 将暂时从订阅套餐下架,后续需消耗积分使用
- 后续:资源扩容后将重新纳入订阅标配体系
简单来说:现在订阅的用户,这两周可以白嫖 Fable 5,后续要花钱买积分才能用。
隐私合规:30天数据留存
Anthropic 为 Mythos 级别模型推出了全新数据保留政策:
- 全量流量数据留存 30 天
- 仅用于:风险研判、攻击溯源、安全优化
- 不参与模型训练
- 不用于非安全类用途
- 30 天后自动清理绝大部分数据
如何接入?
OpenClaw 用户
Fable 5 可以通过 OpenClaw 直接调用:
# 设置 API Key
qclaw config set anthropic.api_key YOUR_ANTHROPIC_API_KEY
# 调用 Fable 5
qclaw chat --model claude-fable-5
Claude Code 用户
Claude Code 默认使用 Claude 系列模型,更新到最新版本后可直接使用 Fable 5:
# 更新 Claude Code
npm update -g @anthropic-ai/codex
# 配置 Fable 5
# 在 ~/.claude/settings.json 中添加:
{
"model": "claude-fable-5-20250609"
}
Codex 用户
OpenAI 官方 Codex CLI 也支持接入 Claude Fable 5:
# 安装支持 Claude 的 Codex
npm update -g @openai/codex
# 配置 API
export ANTHROPIC_API_KEY="YOUR_KEY"
API 直接调用
import anthropic
client = anthropic.Anthropic(api_key="YOUR_ANTHROPIC_API_KEY")
response = client.messages.create(
model="claude-fable-5-20250609",
max_tokens=4096,
messages=[
{"role": "user", "content": "帮我写一个 Python 的快速排序算法"}
]
)
print(response.content[0].text)
八、外界评论:有人叫好,有人质疑
大佬怎么说?
前特斯拉 AI 负责人、OpenAI 创始成员之一 Andrej Karpathy 第一时间给出了高度评价:
“Claude Fable 5 与 Mythos 5 本质上是同一个底层模型,只是在 Fable 上增加了安全防护机制。从基准测试来看,它几乎在所有项目上都以明显优势取得了最佳成绩(SOTA)。但比起排行榜数字,更重要的是它在实际使用中的表现。从定性体验来看,这是一次配得上’大版本号升级’的能力跃迁。”
Karpathy 的评价分量很重。过去两年,大模型行业经历了多轮"刷榜竞赛",各家公司不断刷新测试成绩,但用户实际体验未必同步提升。Karpathy 的这番话,等于是给 Fable 5 做了"实际体验过关"的背书。
开发者社区怎么看?
Reddit 和 X 上的开发者们也在热烈讨论:
叫好的声音:
“真正重要的数字并不是排行榜上的数字。问题在于,随着任务变得越来越长、越来越复杂,Fable 5 的优势反而越来越明显。短距离的综合基准测试对它来说已经不是挑战。”
“看看每一项指标。智能编码任务的完成率从 69% 提升到 80%,这样的增长幅度并不常见。”
质疑的声音:
“按照这个速度发展下去,普通消费者还能跟得上吗?这些模型真的有明显进步吗?还是只是换了个名字,然后提高我们的 Token 消耗额度?”
一位长期使用 Claude 进行财务分析的用户说得更直接:
“我认为最大的提升主要体现在软件安全方面,其他能力虽然有所改进,但幅度有限。这些模型开始越来越像智能手机了,每一代都会进步,但已经很难再让人感到震撼。我目前使用 Opus 4.7 处理财务工作,它运行得很好,没有足够理由让我升级。”
我的看法
这些质疑有一定道理,但也忽略了几个关键点:
- 安全能力的提升不是"换名字":Fable 5 的安全分类器、fallback 机制、红队测试,都是实打实的安全工程投入
- 长周期任务的提升才是重点:对于需要数天甚至数周的项目型任务,Fable 5 的价值远比跑分数字更有意义
- 免费体验期是个窗口:即日起至6月22日,订阅用户可以白嫖两周——这是评估是否值得升级的最佳时机
九、结语:AI 编程的"奇点"越来越近
Claude Fable 5 的发布,不是"升级",是"跨越"。
它证明了三个趋势:
1. AI 能力的上限在持续刷新
5000万行代码1天迁移、数月工程压缩到数天——这些不再是PPT里的愿景,而是 Stripe 工程师亲身验证的事实。
2. 安全与能力的边界在重新划定
Anthropic 为了安全发布 Fable 5,投入了超过1000小时的红队测试。这种投入程度,在整个 AI 行业都是罕见的。安全不再是可以"以后再补"的东西,而是和产品能力同步设计的。
3. AI 从"工具"变成"同事"
动态工作流、并行子代理、自主执行——Fable 5 和 Opus 4.8 展现的能力,已经不是"你问它答"的对话式 AI,而是可以接受任务、自主分解、独立执行、验证结果的数字化同事。
下一步关注什么?
- Fable 5 的安全分类器会不会过于保守?普通用户遇到的"误拦"会不会影响体验?
- OpenAI 会如何回应?(GPT-5.5 vs Claude Fable 5,2026年下半年的大战已经开始)
- 国产模型能否追上这个性能差距?
这些问题,值得我们持续关注。
最后说一句:
Fable 5 不会让你失业。但会用 Fable 5 的人,会淘汰不用的人。
现在,去试试吧。
如果这篇内容对你有帮助,欢迎收藏备用。
有问题欢迎评论区留言交流。
点点赞和关注不迷路,后续还会分享更多 AI 工具与效率提升。
👨💻 H先生出品 | 专注 AI 工具与效率提升
更多推荐


所有评论(0)