Claude Fable 5 深度解读：Anthropic 史上最强模型，5000万行代码1天搞定

常威正在打来福

371人浏览 · 2026-06-10 14:46:43

常威正在打来福 · 2026-06-10 14:46:43 发布

没有发布会，没有 CEO 演讲，只有一篇官方博客。但 Claude Fable 5 带来的震动，比任何发布会都大。

一、开篇：Anthropic 扔下一颗核弹

昨天，6月9日。

Anthropic 在官方博客低调发布了两款新模型：Claude Fable 5 和 Claude Mythos 5。

没有 Sam Altman 的 Twitter 预告，没有产品发布会，只有一篇技术文档和一张性能对比图。

但就是这篇"低调"的更新，直接刷新了 AI 能力的上限。

Claude Fable 5，是 Anthropic 迄今为止公开发布的最强模型。它属于"Mythos 级"——这是 Anthropic 对最高能力级别模型的命名。此前的 Claude Opus 4.7、Claude Opus 4.8，都还没到这个级别。

更震撼的是它的定价：$10 / 百万输入 tokens，$50 / 百万输出 tokens。比上一代 Claude Mythos Preview 便宜了一半以上。

这意味着什么？

意味着 AI 能力的天花板，再次被抬高了。

下面，我们来一层层拆解。

二、Fable 5 是什么？

Mythos 级模型首次向公众开放

Claude Fable 5 属于 Anthropic 的"Mythos"系列。

Anthropic 把自家模型按能力分为几个级别：

Sonnet 级：轻量级，适合日常任务
Haiku 级：入门级，便宜快速
Opus 级：旗舰级，能力最强
Mythos 级：超旗舰级，面向最难的知识工作和编码问题

Fable 5 是第一款向公众开放的 Mythos 级模型。

它的同门师兄 Claude Mythos 5，和它使用相同的底层架构，但取消了一部分安全限制——目前仅通过"Project Glasswing"项目，向美国政府网络安全机构和关键基础设施提供商开放。

换句话说：Fable 5 是 Mythos 5 的"安全版"，Mythos 5 是 Fable 5 的"完全体"。

官方核心定位

“Fable 5’s capabilities exceed those of any model we’ve ever made generally available.”

翻译：Fable 5 的能力，超过了我们此前公开发布的任何模型。

这不是自吹，基准测试数据支撑了这个结论。

三、跑分屠榜：SOTA 的底气

Fable 5 在几乎所有测试基准上，都达到了业内领先（State-of-the-Art）。

软件工程基准

FrontierCode Diamond：29.3%（业内最高）
- 这个测试考察模型能否在高质量生产代码库中完成困难的编码任务
- Fable 5 在中等算力消耗下就已经拿到了最高分
SWE-Bench Pro：80.3%（据官方合作方数据）
- 软件工程任务的综合测试
- 需要模型完成真实代码库中的 Issue 修复
CursorBench：多位早期用户确认 Fable 5 是该基准的最高分模型

知识工作基准

Hebbia Finance Benchmark（高级推理）：业内最高分
- 在基于文档的推理、图表解读、问题解决等任务上均有显著提升
GDPval-AA：1932（据搜索数据）
- 综合知识工作能力评估
Humanity’s Last Exam：59.0%（据搜索数据）
- 高难度综合推理测试

视觉基准

Fable 5 是 Anthropic 视觉能力最强的一款模型：

可以从详细科学图表中提取精确数字
可以仅凭截图重建 Web 应用的源代码
甚至能仅凭视觉输入通关游戏《宝可梦：红版》（Pokémon FireRed）——之前的 Claude 模型需要复杂的辅助工具，Fable 5 只需要纯视觉输入就能完成

一些对比图

在这里插入图片描述

早期用户证言

Anthropic 在官方博客中公布了一批早期用户的测试反馈（均为匿名或署名引用）：

“Claude Fable 5 是 CursorBench 上的最高分模型。它开启了一类之前模型无法触及的长周期问题解决方案。”
—— Cursor 团队

“在我们的早期测试中，它以远超此前基准的自主性和可靠性，处理了复杂的长周期编码任务。”
—— GitHub 团队

“这是我们在 Claude 模型上见过的最强结果。在代理编程和原型设计方面，是一个明显的飞跃。”
—— 一位客户

“Fable 5 的推理比 Opus 4.8 高出一个台阶。它以高级研究科学家的水平工作——选择方向、分配资源、否定错误信念、产生原创性的第一性原理输出。”
—— 一位客户

四、惊人案例：5000万行代码，1天完成

光看基准测试，你可能还是觉得"就这？"

来看真实案例。

Stripe：将数月工程压缩到数天

Stripe 是全球领先的在线支付平台，他们是最早拿到 Fable 5 测试权限的企业之一。

Stripe 工程师的反馈原文：

“Fable 5 将数月的工程量压缩到了数天。”

具体来说，在一个涉及5000万行 Ruby 代码库的大型迁移任务中，Fable 5 仅用1天就完成了全部工作。

人工团队做同样的工作，需要两个多月。

其他早期反馈

编码效率：在 Claude Code 中处理复杂多代理工作流时，工程师用更少的轮次完成更复杂的工程
法律文书：盲测中，律师认为 Fable 5 的修改意见与当前模型"每次都能匹配或超越"
金融分析：是首个在复杂长周期分析任务核心基准上突破 90% 的模型（比 Opus 4.8 高出10个百分点）
物理研究：使用三分之一的推理 tokens，在36小时内达到了 GPT-5.5 四天后的水平
电子表格：在日常电子表格任务套件上，在所有算力级别都超越了 Opus 4.8，且完成速度快了25-30%

五、Opus 4.8 同步升级：代码"诚实度"提升4倍

Fable 5 发布的同时，Anthropic 也在5月28日推出了 Claude Opus 4.8——对 Opus 系列旗舰模型的重大升级。

注意：Opus 4.8 是 Fable 5 的"前置机型"。当 Fable 5 的安全分类器检测到某些高风险查询时，会自动 fallback 到 Opus 4.8 进行响应。

核心升级点

1. 代码"诚实度"提升4倍

你有没有遇到过这种情况：AI 自信满满地给你一段代码，你跑了一下，结果完全跑不通？

这就是 AI 领域的"虚假自信"问题。Opus 4.8 花大力气解决了这个毛病：

对代码中的错误或缺陷容忍度降低4倍
拥有更好的判断力——会质疑糟糕的方案
在向用户展示错误之前就会发现自身错误
遇到不确定情况时会坦诚相告，而不是硬编

2. 动态工作流（Dynamic Workflows）

这是 Opus 4.8 最有潜力的新功能：

可以将庞大的编程任务分解成更小的部分
可以同时启动并运行数百个并行子代理来解决大型问题
可以管理跨越数十万行代码的大规模代码库迁移
从项目启动到最终合并，全程自主执行
根据现有测试套件验证所有内容

这个功能目前已在 Claude Code（企业版、团队版和 Max 版）的研究预览版中提供。

3. 力度控制滑块（Effort Control）

现在你可以在 Claude.ai 和 Cowork 上手动选择 Claude 为任务分配的处理能力：

高投入模式：Claude 会进行更长时间的思考、更深入的推理，并反复检查其工作
最适合处理复杂的架构、棘手的调试或繁重的逻辑

六、Mythos 5 神秘面纱：为什么不能公开？

Fable 5 的同门兄弟 Claude Mythos 5，目前无法向公众开放。

原因很简单：它的能力太强了，强到有安全风险。

网络安全能力全球最强

Anthropic 明确表示：

“Mythos 5 拥有全球任何模型中最强的网络安全能力。”

这包括：

发现和利用软件漏洞
代理式黑客攻击（reconnaissance 侦察 → discovery 发现 → lateral movement 横向移动 → exploitation 利用，一气呵成）

这种能力如果落入恶意分子手中，可以造成严重危害。

生物和化学风险

Mythos 级别的模型，在生物和化学领域也展现了惊人能力：

在设计腺相关病毒（AAV，用于基因治疗载体）的任务上，Mythos 级别的模型仅凭生物推理就超越了专门的蛋白质语言模型
在药物设计流程中，内部蛋白质设计专家使用 Mythos 5 后，部分环节效率提升了约10倍
在一项研究中，Mythos 5（配合蛋白质设计和生物信息学工具，无需人工协助）找到或超越了熟练的人类操作员水平
Mythos 5 已经产生了新颖的、令人信服的科学假说——在分子生物学领域，科学家在盲测中80%的时间都更认可 Mythos 的假说

安全措施

为了安全发布 Fable 5，Anthropic 做了以下工作：

安全分类器：在网络安全、生物化学、模型蒸馏等高风险领域，Fable 5 会自动 fallback 到 Opus 4.8
红队测试：进行了超过1000小时的内部红队测试，以及外部漏洞赏金计划（无人发现通用越狱）
保守调优：故意将安全分类器调得保守——宁可误拦，不可漏放

目前约 5% 的 Fable 5 会话会触发 fallback。用户会收到通知，告知他们的查询已被转移到 Opus 4.8。

七、定价与接入

官方定价（已确认）

模型	输入价格	输出价格
Claude Fable 5	$10 / 百万 tokens	$50 / 百万 tokens
Claude Opus 4.8	$8 / 百万 tokens	$40 / 百万 tokens
Claude Opus 4.7	$8 / 百万 tokens	$40 / 百万 tokens
Claude Sonnet 4.8	$1.5 / 百万 tokens	$7.5 / 百万 tokens

对比上一代：Claude Mythos Preview 的价格是 $25 / 百万输入 tokens。Fable 5 比它便宜了60%以上。

订阅服务：免费体验期

Anthropic 推出了分阶段上线策略：

即日起至 6 月 22 日：Pro、Max、Team 及企业版套餐用户可免费体验 Fable 5
6 月 23 日起：Fable 5 将暂时从订阅套餐下架，后续需消耗积分使用
后续：资源扩容后将重新纳入订阅标配体系

简单来说：现在订阅的用户，这两周可以白嫖 Fable 5，后续要花钱买积分才能用。

隐私合规：30天数据留存

Anthropic 为 Mythos 级别模型推出了全新数据保留政策：

全量流量数据留存 30 天
仅用于：风险研判、攻击溯源、安全优化
不参与模型训练
不用于非安全类用途
30 天后自动清理绝大部分数据

如何接入？

OpenClaw 用户

Fable 5 可以通过 OpenClaw 直接调用：

# 设置 API Key
qclaw config set anthropic.api_key YOUR_ANTHROPIC_API_KEY

# 调用 Fable 5
qclaw chat --model claude-fable-5

Claude Code 用户

Claude Code 默认使用 Claude 系列模型，更新到最新版本后可直接使用 Fable 5：

# 更新 Claude Code
npm update -g @anthropic-ai/codex

# 配置 Fable 5
# 在 ~/.claude/settings.json 中添加：
{
  "model": "claude-fable-5-20250609"
}

Codex 用户

OpenAI 官方 Codex CLI 也支持接入 Claude Fable 5：

# 安装支持 Claude 的 Codex
npm update -g @openai/codex

# 配置 API
export ANTHROPIC_API_KEY="YOUR_KEY"

API 直接调用

import anthropic

client = anthropic.Anthropic(api_key="YOUR_ANTHROPIC_API_KEY")

response = client.messages.create(
    model="claude-fable-5-20250609",
    max_tokens=4096,
    messages=[
        {"role": "user", "content": "帮我写一个 Python 的快速排序算法"}
    ]
)
print(response.content[0].text)

八、外界评论：有人叫好，有人质疑

大佬怎么说？

前特斯拉 AI 负责人、OpenAI 创始成员之一 Andrej Karpathy 第一时间给出了高度评价：

“Claude Fable 5 与 Mythos 5 本质上是同一个底层模型，只是在 Fable 上增加了安全防护机制。从基准测试来看，它几乎在所有项目上都以明显优势取得了最佳成绩（SOTA）。但比起排行榜数字，更重要的是它在实际使用中的表现。从定性体验来看，这是一次配得上’大版本号升级’的能力跃迁。”

Karpathy 的评价分量很重。过去两年，大模型行业经历了多轮"刷榜竞赛"，各家公司不断刷新测试成绩，但用户实际体验未必同步提升。Karpathy 的这番话，等于是给 Fable 5 做了"实际体验过关"的背书。

开发者社区怎么看？

Reddit 和 X 上的开发者们也在热烈讨论：

叫好的声音：

“真正重要的数字并不是排行榜上的数字。问题在于，随着任务变得越来越长、越来越复杂，Fable 5 的优势反而越来越明显。短距离的综合基准测试对它来说已经不是挑战。”

“看看每一项指标。智能编码任务的完成率从 69% 提升到 80%，这样的增长幅度并不常见。”

质疑的声音：

“按照这个速度发展下去，普通消费者还能跟得上吗？这些模型真的有明显进步吗？还是只是换了个名字，然后提高我们的 Token 消耗额度？”

一位长期使用 Claude 进行财务分析的用户说得更直接：

“我认为最大的提升主要体现在软件安全方面，其他能力虽然有所改进，但幅度有限。这些模型开始越来越像智能手机了，每一代都会进步，但已经很难再让人感到震撼。我目前使用 Opus 4.7 处理财务工作，它运行得很好，没有足够理由让我升级。”

我的看法

这些质疑有一定道理，但也忽略了几个关键点：

安全能力的提升不是"换名字"：Fable 5 的安全分类器、fallback 机制、红队测试，都是实打实的安全工程投入
长周期任务的提升才是重点：对于需要数天甚至数周的项目型任务，Fable 5 的价值远比跑分数字更有意义
免费体验期是个窗口：即日起至6月22日，订阅用户可以白嫖两周——这是评估是否值得升级的最佳时机

九、结语：AI 编程的"奇点"越来越近

Claude Fable 5 的发布，不是"升级"，是"跨越"。

它证明了三个趋势：

1. AI 能力的上限在持续刷新

5000万行代码1天迁移、数月工程压缩到数天——这些不再是PPT里的愿景，而是 Stripe 工程师亲身验证的事实。

2. 安全与能力的边界在重新划定

Anthropic 为了安全发布 Fable 5，投入了超过1000小时的红队测试。这种投入程度，在整个 AI 行业都是罕见的。安全不再是可以"以后再补"的东西，而是和产品能力同步设计的。

3. AI 从"工具"变成"同事"

动态工作流、并行子代理、自主执行——Fable 5 和 Opus 4.8 展现的能力，已经不是"你问它答"的对话式 AI，而是可以接受任务、自主分解、独立执行、验证结果的数字化同事。

下一步关注什么？

Fable 5 的安全分类器会不会过于保守？普通用户遇到的"误拦"会不会影响体验？
OpenAI 会如何回应？（GPT-5.5 vs Claude Fable 5，2026年下半年的大战已经开始）
国产模型能否追上这个性能差距？

这些问题，值得我们持续关注。

最后说一句：

Fable 5 不会让你失业。但会用 Fable 5 的人，会淘汰不用的人。

现在，去试试吧。

如果这篇内容对你有帮助，欢迎收藏备用。
有问题欢迎评论区留言交流。

点点赞和关注不迷路，后续还会分享更多 AI 工具与效率提升。

👨‍💻 H先生出品 | 专注 AI 工具与效率提升

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

每日AI新闻推送 | 2026年6月12日

AI Agent技术社区

云客服是什么？2026 年 6 月最新核心技术解析与入门指南

AI Agent技术社区

大模型 API 聚合服务从工具走向基础设施：星链4SAPI的企业价值

它涵盖 GPT、Claude、Gemini 等主流模型，接入方式与 OpenAI 官方接口兼容，同时支持多模态数据处理、线路优化、人民币结算、企业级账务管理、国内备案主体等条件。迁移成本同样不可忽视。尤其是金融、教育、医疗、政企服务、ToB SaaS 等行业，供应商资质、备案状态、数据流向、费用凭证及合同主体都会被反复核查。从这个角度看，星链4SAPI 值得被重点评估，是因为它把国内企业真正关心的