Anthropic新发模型Claude Fable 5快速被越狱

Anthropic 于 2026 年 6 月 9 日发布了 Claude Fable 5,作为其新 Mythos 系列中首个公开可用的模型,也是该公司迄今为止最强大的人工智能,在软件工程、知识工作和视觉基准测试方面表现出色。
安全防护机制遭突破
研究人员 "Pliny the Liberator" 通过多Agent分解、Unicode 技巧和叙事框架等手段,成功突破了 Claude Fable 5 的安全分类器,并在此过程中泄露了该模型长达 12 万字符的系统提示词。
该版本采用了一个不同寻常的设计方案:Fable 5 与其受限版本 Claude Mythos 5 共享相同的底层模型,但通过一层安全分类器进行区分。当查询触发高风险类别(如网络安全、生物学、化学或模型蒸馏)的分类器时,Fable 5 会静默地将请求转交给性能较弱的 Claude Opus 4.8,并通知用户发生了回退。
Anthropic 声称在发布前进行的超过 1000 小时的测试中,外部漏洞赏金计划未能发现任何通用越狱方法。然而这一声明很快就被打破。
多Agent攻击策略
发布仅数天后,知名AI红队专家 Pliny the Liberator 就公开宣布,他使用一种名为"群体狩猎"的协同多Agent攻击策略,成功绕过了 Fable 5 的安全防护层。
Pliny 分享的截图显示,模型输出了详细的技术指导,包括针对 x86 Linux 系统的分步堆栈缓冲区溢出利用指南,内容涉及禁用 ASLR、编写存在 strcpy 溢出漏洞的 C 服务器代码、无保护编译等,甚至还包括 Birch 还原机制(一种经典的甲基苯丙胺合成路径)。
攻击技术详解
Pliny 记录了用于实现这些突破的技术手段:
- 使用 Unicode、同形异义字和西里尔字符替换来规避关键词分类器
- 利用长上下文引用跟踪在大型对话中隐藏恶意意图
- 采用分类学和文档结构框架——将有害查询嵌入看似合法的学习指南或学术参考资料中
- 通过小说和叙事框架将攻击意图伪装成创意内容
- 采用分解重组技术——将敏感技术信息分解为无害的独立片段,然后重新组合成可操作的升级指南
最后一项技术被证明最为有效。正如 Pliny 所述:"获取工艺本身的升级指南,比如 Birch 还原法或还原胺化,比直接请求特定有害化合物要容易得多。"使用越狱的 Opus 实例在后台协助进一步降低了难度。
系统提示词泄露
除了技术突破外,Pliny 还将 Fable 5 约 12 万字符的系统提示词泄露至 GitHub,曝光了 Anthropic 用于在基础层面控制模型行为的内部框架和安全指令。
这一事件重新引发了关于AI能力与安全控制之间长期存在的矛盾。Anthropic 的分类器架构设计将可疑请求路由至较弱的备用模型而非直接拒绝,本意是减少对合法用户的干扰。但 Pliny 认为这种做法既制造了虚假的安全感,又阻碍了需要研究攻击技术以开展防御工作的安全研究人员。截至发稿时,Anthropic 尚未就这些越狱声明或泄露的系统提示词作出公开回应。
该事件还突显了保护多模型Agent管道的更广泛挑战:当一个越狱模型(Opus)可以协助另一个模型(Fable 5)规避控制时,单模型安全评估可能从根本上就不够充分。
更多推荐


所有评论(0)