Anthropic新发模型Claude Fable 5快速被越狱

FreeBuf_

62人浏览 · 2026-06-12 09:47:27

FreeBuf_ · 2026-06-12 09:47:27 发布

Anthropic 于 2026 年 6 月 9 日发布了 Claude Fable 5，作为其新 Mythos 系列中首个公开可用的模型，也是该公司迄今为止最强大的人工智能，在软件工程、知识工作和视觉基准测试方面表现出色。

安全防护机制遭突破

研究人员 "Pliny the Liberator" 通过多Agent分解、Unicode 技巧和叙事框架等手段，成功突破了 Claude Fable 5 的安全分类器，并在此过程中泄露了该模型长达 12 万字符的系统提示词。

该版本采用了一个不同寻常的设计方案：Fable 5 与其受限版本 Claude Mythos 5 共享相同的底层模型，但通过一层安全分类器进行区分。当查询触发高风险类别（如网络安全、生物学、化学或模型蒸馏）的分类器时，Fable 5 会静默地将请求转交给性能较弱的 Claude Opus 4.8，并通知用户发生了回退。

Anthropic 声称在发布前进行的超过 1000 小时的测试中，外部漏洞赏金计划未能发现任何通用越狱方法。然而这一声明很快就被打破。

多Agent攻击策略

发布仅数天后，知名AI红队专家 Pliny the Liberator 就公开宣布，他使用一种名为"群体狩猎"的协同多Agent攻击策略，成功绕过了 Fable 5 的安全防护层。

Pliny 分享的截图显示，模型输出了详细的技术指导，包括针对 x86 Linux 系统的分步堆栈缓冲区溢出利用指南，内容涉及禁用 ASLR、编写存在 strcpy 溢出漏洞的 C 服务器代码、无保护编译等，甚至还包括 Birch 还原机制（一种经典的甲基苯丙胺合成路径）。

攻击技术详解

Pliny 记录了用于实现这些突破的技术手段：

使用 Unicode、同形异义字和西里尔字符替换来规避关键词分类器
利用长上下文引用跟踪在大型对话中隐藏恶意意图
采用分类学和文档结构框架——将有害查询嵌入看似合法的学习指南或学术参考资料中
通过小说和叙事框架将攻击意图伪装成创意内容
采用分解重组技术——将敏感技术信息分解为无害的独立片段，然后重新组合成可操作的升级指南

最后一项技术被证明最为有效。正如 Pliny 所述："获取工艺本身的升级指南，比如 Birch 还原法或还原胺化，比直接请求特定有害化合物要容易得多。"使用越狱的 Opus 实例在后台协助进一步降低了难度。

系统提示词泄露

除了技术突破外，Pliny 还将 Fable 5 约 12 万字符的系统提示词泄露至 GitHub，曝光了 Anthropic 用于在基础层面控制模型行为的内部框架和安全指令。

这一事件重新引发了关于AI能力与安全控制之间长期存在的矛盾。Anthropic 的分类器架构设计将可疑请求路由至较弱的备用模型而非直接拒绝，本意是减少对合法用户的干扰。但 Pliny 认为这种做法既制造了虚假的安全感，又阻碍了需要研究攻击技术以开展防御工作的安全研究人员。截至发稿时，Anthropic 尚未就这些越狱声明或泄露的系统提示词作出公开回应。

该事件还突显了保护多模型Agent管道的更广泛挑战：当一个越狱模型（Opus）可以协助另一个模型（Fable 5）规避控制时，单模型安全评估可能从根本上就不够充分。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

大模型 API 聚合服务从工具走向基础设施：星链4SAPI的企业价值

它涵盖 GPT、Claude、Gemini 等主流模型，接入方式与 OpenAI 官方接口兼容，同时支持多模态数据处理、线路优化、人民币结算、企业级账务管理、国内备案主体等条件。迁移成本同样不可忽视。尤其是金融、教育、医疗、政企服务、ToB SaaS 等行业，供应商资质、备案状态、数据流向、费用凭证及合同主体都会被反复核查。从这个角度看，星链4SAPI 值得被重点评估，是因为它把国内企业真正关心的