前几天,Claude重磅发布了两款神话级模型ClaudeFable 5和ClaudeMythos5。

根据这几个模型之间的对比,我们可以从以下这几个维度得出这些结论:

1、编程任务

Fable 5 在真实世界编程任务(SWE-Bench Pro)上领先近 11个百分点,远超所有竞品。
在“极端难度”代码生成(FrontierCode Diamond)中,Fable 5 达到 29.3%,是 Opus 的 2.2倍,GPT-5 的 5倍以上。
Terminal-Bench 2.1 显示 Fable 5 能完成更复杂的终端操作链式任务(如多步骤脚本执行+调试),得分高达 88%,接近人类专家水平。

2、综合知识推理任务

在综合知识推理任务(GDPval-AA)中,Fable 5 得分为 1932,略高于 Opus(1890),显著优于竞品。
在“无工具辅助”的PDF文档阅读理解(GDPpdf)中,Fable 5 表现最佳(29.8%),说明其原生视觉解析能力更强,无需调用外部OCR或解析器即可处理复杂排版文档。

3、空间推理与工具使用

空间推理方面,Fable 5 以 38.6% 大幅领先第二名的 GPT-5(36.2%),尤其在几何变换、路径规划等场景下表现稳定。
工具调用能力虽绝对值不高(17.4%),但相比 Opus(15.5%)仍有提升,且远胜 Gemini(9.6%)。值得注意的是,Fable 5 在“带工具”的多轮交互中效率更高(见下文Multidisciplinary reasoning部分)。

4、法律代理相关

在法律代理任务中,Fable 5 得分 13.3%,是 Opus 的 1.28倍,GPT-5 的 6倍多,甚至碾压 Gemini(0%)。这表明其在合同审查、法规检索、案例匹配等领域具备行业级专业能力。

5、相关专业知识

在“Hard”生物学谜题中,Fable 5 达 46.1%,较 Opus 提升 6.1个百分点。
在“Human Solved”类别中,Fable 5 达到 83.9%,接近人类专家水平(82.6%~80.4%区间),说明其科学推理已达可信赖程度。

内部蛋白质设计专家利用 Mythos 5 将药物设计流程提速约十倍,在无人协助下独立完成从靶点选择到故障恢复的全链路工作,并在14个蛋白靶点中成功产出9个强效候选分子。也就是说在仅配备蛋白质设计和生物信息学工具、无人类协助的情况下,模型表现达到甚至超越熟练的人类操作员水平。

总结:

超长自主性:两款模型均具备比以往任何 Claude 模型更长的自主工作时长,能够处理需要长时间连续推理和执行的复杂任务。

多维能力增强:除软件工程外,模型在以下领域也实现了显著提升:

  • 知识工作:复杂文档理解与推理
  • 视觉能力:图表解读与界面还原
  • 记忆能力:长上下文保持与跨会话信息整合
  • 生命科学研究:假设生成、实验设计与数据分析

定价

两款模型的定价均为:每百万个输入 token 10 美元,每百万个输出 token 50 美元。开发者可通过 Claude API 使用 claude-fable-5。所以

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐