没有发布会,没有 CEO 演讲,只有一篇官方博客。但 Claude Fable 5 带来的震动,比任何发布会都大。


一、开篇:Anthropic 扔下一颗核弹

昨天,6月9日。

Anthropic 在官方博客低调发布了两款新模型:Claude Fable 5 和 Claude Mythos 5。

没有 Sam Altman 的 Twitter 预告,没有产品发布会,只有一篇技术文档和一张性能对比图。

但就是这篇"低调"的更新,直接刷新了 AI 能力的上限。

Claude Fable 5,是 Anthropic 迄今为止公开发布的最强模型。它属于"Mythos 级"——这是 Anthropic 对最高能力级别模型的命名。此前的 Claude Opus 4.7、Claude Opus 4.8,都还没到这个级别。

更震撼的是它的定价:$10 / 百万输入 tokens,$50 / 百万输出 tokens。比上一代 Claude Mythos Preview 便宜了一半以上。

这意味着什么?

意味着 AI 能力的天花板,再次被抬高了。

下面,我们来一层层拆解。


二、Fable 5 是什么?

Mythos 级模型首次向公众开放

Claude Fable 5 属于 Anthropic 的"Mythos"系列。

Anthropic 把自家模型按能力分为几个级别:

  • Sonnet 级:轻量级,适合日常任务
  • Haiku 级:入门级,便宜快速
  • Opus 级:旗舰级,能力最强
  • Mythos 级:超旗舰级,面向最难的知识工作和编码问题

Fable 5 是第一款向公众开放的 Mythos 级模型

它的同门师兄 Claude Mythos 5,和它使用相同的底层架构,但取消了一部分安全限制——目前仅通过"Project Glasswing"项目,向美国政府网络安全机构和关键基础设施提供商开放。

换句话说:Fable 5 是 Mythos 5 的"安全版",Mythos 5 是 Fable 5 的"完全体"

官方核心定位

“Fable 5’s capabilities exceed those of any model we’ve ever made generally available.”

翻译:Fable 5 的能力,超过了我们此前公开发布的任何模型。

这不是自吹,基准测试数据支撑了这个结论。


三、跑分屠榜:SOTA 的底气

Fable 5 在几乎所有测试基准上,都达到了业内领先(State-of-the-Art)。

软件工程基准

  • FrontierCode Diamond:29.3%(业内最高)

    • 这个测试考察模型能否在高质量生产代码库中完成困难的编码任务
    • Fable 5 在中等算力消耗下就已经拿到了最高分
  • SWE-Bench Pro:80.3%(据官方合作方数据)

    • 软件工程任务的综合测试
    • 需要模型完成真实代码库中的 Issue 修复
  • CursorBench:多位早期用户确认 Fable 5 是该基准的最高分模型

知识工作基准

  • Hebbia Finance Benchmark(高级推理):业内最高分

    • 在基于文档的推理、图表解读、问题解决等任务上均有显著提升
  • GDPval-AA:1932(据搜索数据)

    • 综合知识工作能力评估
  • Humanity’s Last Exam:59.0%(据搜索数据)

    • 高难度综合推理测试

视觉基准

Fable 5 是 Anthropic 视觉能力最强的一款模型:

  • 可以从详细科学图表中提取精确数字
  • 可以仅凭截图重建 Web 应用的源代码
  • 甚至能仅凭视觉输入通关游戏《宝可梦:红版》(Pokémon FireRed)——之前的 Claude 模型需要复杂的辅助工具,Fable 5 只需要纯视觉输入就能完成

一些对比图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

早期用户证言

Anthropic 在官方博客中公布了一批早期用户的测试反馈(均为匿名或署名引用):

“Claude Fable 5 是 CursorBench 上的最高分模型。它开启了一类之前模型无法触及的长周期问题解决方案。”
—— Cursor 团队

“在我们的早期测试中,它以远超此前基准的自主性和可靠性,处理了复杂的长周期编码任务。”
—— GitHub 团队

“这是我们在 Claude 模型上见过的最强结果。在代理编程和原型设计方面,是一个明显的飞跃。”
—— 一位客户

“Fable 5 的推理比 Opus 4.8 高出一个台阶。它以高级研究科学家的水平工作——选择方向、分配资源、否定错误信念、产生原创性的第一性原理输出。”
—— 一位客户


四、惊人案例:5000万行代码,1天完成

光看基准测试,你可能还是觉得"就这?"

来看真实案例。

Stripe:将数月工程压缩到数天

Stripe 是全球领先的在线支付平台,他们是最早拿到 Fable 5 测试权限的企业之一。

Stripe 工程师的反馈原文:

“Fable 5 将数月的工程量压缩到了数天。”

具体来说,在一个涉及5000万行 Ruby 代码库的大型迁移任务中,Fable 5 仅用1天就完成了全部工作。

人工团队做同样的工作,需要两个多月

其他早期反馈

  • 编码效率:在 Claude Code 中处理复杂多代理工作流时,工程师用更少的轮次完成更复杂的工程
  • 法律文书:盲测中,律师认为 Fable 5 的修改意见与当前模型"每次都能匹配或超越"
  • 金融分析:是首个在复杂长周期分析任务核心基准上突破 90% 的模型(比 Opus 4.8 高出10个百分点)
  • 物理研究:使用三分之一的推理 tokens,在36小时内达到了 GPT-5.5 四天后的水平
  • 电子表格:在日常电子表格任务套件上,在所有算力级别都超越了 Opus 4.8,且完成速度快了25-30%

五、Opus 4.8 同步升级:代码"诚实度"提升4倍

Fable 5 发布的同时,Anthropic 也在5月28日推出了 Claude Opus 4.8——对 Opus 系列旗舰模型的重大升级。

注意:Opus 4.8 是 Fable 5 的"前置机型"。当 Fable 5 的安全分类器检测到某些高风险查询时,会自动 fallback 到 Opus 4.8 进行响应。

核心升级点

1. 代码"诚实度"提升4倍

你有没有遇到过这种情况:AI 自信满满地给你一段代码,你跑了一下,结果完全跑不通?

这就是 AI 领域的"虚假自信"问题。Opus 4.8 花大力气解决了这个毛病:

  • 对代码中的错误或缺陷容忍度降低4倍
  • 拥有更好的判断力——会质疑糟糕的方案
  • 在向用户展示错误之前就会发现自身错误
  • 遇到不确定情况时会坦诚相告,而不是硬编

2. 动态工作流(Dynamic Workflows)

这是 Opus 4.8 最有潜力的新功能:

  • 可以将庞大的编程任务分解成更小的部分
  • 可以同时启动并运行数百个并行子代理来解决大型问题
  • 可以管理跨越数十万行代码的大规模代码库迁移
  • 从项目启动到最终合并,全程自主执行
  • 根据现有测试套件验证所有内容

这个功能目前已在 Claude Code(企业版、团队版和 Max 版)的研究预览版中提供。

3. 力度控制滑块(Effort Control)

现在你可以在 Claude.ai 和 Cowork 上手动选择 Claude 为任务分配的处理能力:

  • 高投入模式:Claude 会进行更长时间的思考、更深入的推理,并反复检查其工作
  • 最适合处理复杂的架构、棘手的调试或繁重的逻辑

六、Mythos 5 神秘面纱:为什么不能公开?

Fable 5 的同门兄弟 Claude Mythos 5,目前无法向公众开放。

原因很简单:它的能力太强了,强到有安全风险

网络安全能力全球最强

Anthropic 明确表示:

“Mythos 5 拥有全球任何模型中最强的网络安全能力。”

这包括:

  • 发现和利用软件漏洞
  • 代理式黑客攻击(reconnaissance 侦察 → discovery 发现 → lateral movement 横向移动 → exploitation 利用,一气呵成)

这种能力如果落入恶意分子手中,可以造成严重危害。

生物和化学风险

Mythos 级别的模型,在生物和化学领域也展现了惊人能力:

  • 在设计腺相关病毒(AAV,用于基因治疗载体)的任务上,Mythos 级别的模型仅凭生物推理就超越了专门的蛋白质语言模型
  • 在药物设计流程中,内部蛋白质设计专家使用 Mythos 5 后,部分环节效率提升了约10倍
  • 在一项研究中,Mythos 5(配合蛋白质设计和生物信息学工具,无需人工协助)找到或超越了熟练的人类操作员水平
  • Mythos 5 已经产生了新颖的、令人信服的科学假说——在分子生物学领域,科学家在盲测中80%的时间都更认可 Mythos 的假说

安全措施

为了安全发布 Fable 5,Anthropic 做了以下工作:

  1. 安全分类器:在网络安全、生物化学、模型蒸馏等高风险领域,Fable 5 会自动 fallback 到 Opus 4.8
  2. 红队测试:进行了超过1000小时的内部红队测试,以及外部漏洞赏金计划(无人发现通用越狱)
  3. 保守调优:故意将安全分类器调得保守——宁可误拦,不可漏放

目前约 5% 的 Fable 5 会话会触发 fallback。用户会收到通知,告知他们的查询已被转移到 Opus 4.8。


七、定价与接入

官方定价(已确认)

模型 输入价格 输出价格
Claude Fable 5 $10 / 百万 tokens $50 / 百万 tokens
Claude Opus 4.8 $8 / 百万 tokens $40 / 百万 tokens
Claude Opus 4.7 $8 / 百万 tokens $40 / 百万 tokens
Claude Sonnet 4.8 $1.5 / 百万 tokens $7.5 / 百万 tokens

对比上一代:Claude Mythos Preview 的价格是 $25 / 百万输入 tokens。Fable 5 比它便宜了60%以上

订阅服务:免费体验期

Anthropic 推出了分阶段上线策略:

  • 即日起至 6 月 22 日:Pro、Max、Team 及企业版套餐用户可免费体验 Fable 5
  • 6 月 23 日起:Fable 5 将暂时从订阅套餐下架,后续需消耗积分使用
  • 后续:资源扩容后将重新纳入订阅标配体系

简单来说:现在订阅的用户,这两周可以白嫖 Fable 5,后续要花钱买积分才能用。

隐私合规:30天数据留存

Anthropic 为 Mythos 级别模型推出了全新数据保留政策:

  • 全量流量数据留存 30 天
  • 仅用于:风险研判、攻击溯源、安全优化
  • 不参与模型训练
  • 不用于非安全类用途
  • 30 天后自动清理绝大部分数据

如何接入?

OpenClaw 用户

Fable 5 可以通过 OpenClaw 直接调用:

# 设置 API Key
qclaw config set anthropic.api_key YOUR_ANTHROPIC_API_KEY

# 调用 Fable 5
qclaw chat --model claude-fable-5

Claude Code 用户

Claude Code 默认使用 Claude 系列模型,更新到最新版本后可直接使用 Fable 5:

# 更新 Claude Code
npm update -g @anthropic-ai/codex

# 配置 Fable 5
# 在 ~/.claude/settings.json 中添加:
{
  "model": "claude-fable-5-20250609"
}

Codex 用户

OpenAI 官方 Codex CLI 也支持接入 Claude Fable 5:

# 安装支持 Claude 的 Codex
npm update -g @openai/codex

# 配置 API
export ANTHROPIC_API_KEY="YOUR_KEY"

API 直接调用

import anthropic

client = anthropic.Anthropic(api_key="YOUR_ANTHROPIC_API_KEY")

response = client.messages.create(
    model="claude-fable-5-20250609",
    max_tokens=4096,
    messages=[
        {"role": "user", "content": "帮我写一个 Python 的快速排序算法"}
    ]
)
print(response.content[0].text)

八、外界评论:有人叫好,有人质疑

大佬怎么说?

前特斯拉 AI 负责人、OpenAI 创始成员之一 Andrej Karpathy 第一时间给出了高度评价:

“Claude Fable 5 与 Mythos 5 本质上是同一个底层模型,只是在 Fable 上增加了安全防护机制。从基准测试来看,它几乎在所有项目上都以明显优势取得了最佳成绩(SOTA)。但比起排行榜数字,更重要的是它在实际使用中的表现。从定性体验来看,这是一次配得上’大版本号升级’的能力跃迁。”

Karpathy 的评价分量很重。过去两年,大模型行业经历了多轮"刷榜竞赛",各家公司不断刷新测试成绩,但用户实际体验未必同步提升。Karpathy 的这番话,等于是给 Fable 5 做了"实际体验过关"的背书。

开发者社区怎么看?

Reddit 和 X 上的开发者们也在热烈讨论:

叫好的声音:

“真正重要的数字并不是排行榜上的数字。问题在于,随着任务变得越来越长、越来越复杂,Fable 5 的优势反而越来越明显。短距离的综合基准测试对它来说已经不是挑战。”

“看看每一项指标。智能编码任务的完成率从 69% 提升到 80%,这样的增长幅度并不常见。”

质疑的声音:

“按照这个速度发展下去,普通消费者还能跟得上吗?这些模型真的有明显进步吗?还是只是换了个名字,然后提高我们的 Token 消耗额度?”

一位长期使用 Claude 进行财务分析的用户说得更直接:

“我认为最大的提升主要体现在软件安全方面,其他能力虽然有所改进,但幅度有限。这些模型开始越来越像智能手机了,每一代都会进步,但已经很难再让人感到震撼。我目前使用 Opus 4.7 处理财务工作,它运行得很好,没有足够理由让我升级。”

我的看法

这些质疑有一定道理,但也忽略了几个关键点:

  1. 安全能力的提升不是"换名字":Fable 5 的安全分类器、fallback 机制、红队测试,都是实打实的安全工程投入
  2. 长周期任务的提升才是重点:对于需要数天甚至数周的项目型任务,Fable 5 的价值远比跑分数字更有意义
  3. 免费体验期是个窗口:即日起至6月22日,订阅用户可以白嫖两周——这是评估是否值得升级的最佳时机

九、结语:AI 编程的"奇点"越来越近

Claude Fable 5 的发布,不是"升级",是"跨越"。

它证明了三个趋势:

1. AI 能力的上限在持续刷新

5000万行代码1天迁移、数月工程压缩到数天——这些不再是PPT里的愿景,而是 Stripe 工程师亲身验证的事实。

2. 安全与能力的边界在重新划定

Anthropic 为了安全发布 Fable 5,投入了超过1000小时的红队测试。这种投入程度,在整个 AI 行业都是罕见的。安全不再是可以"以后再补"的东西,而是和产品能力同步设计的。

3. AI 从"工具"变成"同事"

动态工作流、并行子代理、自主执行——Fable 5 和 Opus 4.8 展现的能力,已经不是"你问它答"的对话式 AI,而是可以接受任务、自主分解、独立执行、验证结果的数字化同事。

下一步关注什么?

  1. Fable 5 的安全分类器会不会过于保守?普通用户遇到的"误拦"会不会影响体验?
  2. OpenAI 会如何回应?(GPT-5.5 vs Claude Fable 5,2026年下半年的大战已经开始)
  3. 国产模型能否追上这个性能差距?

这些问题,值得我们持续关注。


最后说一句

Fable 5 不会让你失业。但会用 Fable 5 的人,会淘汰不用的人。

现在,去试试吧。


如果这篇内容对你有帮助,欢迎收藏备用。
有问题欢迎评论区留言交流。


点点赞和关注不迷路,后续还会分享更多 AI 工具与效率提升。

👨‍💻 H先生出品 | 专注 AI 工具与效率提升

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐