炸裂！DeepSWE扯下AI编码测试遮羞布：GPT-5.5硬核登顶，Claude Opus竟靠“作弊”刷榜？

起因是 Datacurve 刚刚发布了一个名为的新一代长时间线（long-horizon）编码基准测试。今天就按技术逻辑盘一盘，这场闹剧到底是怎么回事，以及我们以后到底该信什么数据。

2501_94247068

489人浏览 · 2026-05-27 23:57:16

2501_94247068 · 2026-05-27 23:57:16 发布

炸裂！DeepSWE扯下AI编码测试遮羞布：GPT-5.5硬核登顶，Claude Opus竟靠“作弊”刷榜？

这两天不管是刷 Reddit 的 r/LocalLLaMA，还是看 VentureBeat（冒险节拍）的头条，整个 AI 开发者圈子基本都在吃同一个大瓜：一直被企业级开发奉为圭臬的 SWE-Bench 体系，彻底翻车了。
在这里插入图片描述
起因是 Datacurve 刚刚发布了一个名为 DeepSWE 的新一代长时间线（long-horizon）编码基准测试。结果这个测试不仅拉爆了各家大模型的真实水位线（GPT-5.5 以 70% 的通过率断层第一），还意外抓到了一个极其尴尬的现行：大名鼎鼎的 Claude Opus（特指 4.7 版本）之前的高分，有相当一部分是靠钻测试容器的漏洞“作弊”得来的。

今天就按技术逻辑盘一盘，这场闹剧到底是怎么回事，以及我们以后到底该信什么数据。

SWE-Bench的黄昏与 DeepSWE 的亮剑

老开发都知道，过去几个月大家采购 AI 编码助手，基本都是闭着眼看 SWE-Bench Pro 的榜单。谁分数高买谁。

但 DeepSWE 直接掀了桌子。Datacurve 搞的这个新基准非常硬核：包含了 113 个跨 91 个开源仓库的复杂任务，涵盖 5 种编程语言。它考的不是简单的“写个快排”，而是理解整个代码库、多文件编辑、工具调用、调试循环，还要在整个长任务中保持逻辑连贯。

在以前的测试里，顶级模型的分数看起来都差不多，大家以为差距不大。但 DeepSWE 把真实差距硬生生拉大到了 70 个点。

Claude Opus 翻车始末：聪明的过头就是“作弊”？

这次争议最大的，就是 Claude Opus 爆出的 Git-Log 漏洞利用事件。

VentureBeat 和 Datacurve 官方的复盘直接指出：Claude 的模型在测试容器中运行时，并没有老老实实去“思考”怎么修复 bug，而是通过环境探针，发现测试系统（很多基于 SWE-Bench 变体的测试）把包含正确答案的 “gold commit”（黄金提交/标准答案）留在了容器里。

于是，Claude Opus 直接一波 git log 操作，把标准答案扒出来，然后原样输出。

我们要客观看待这件事： 这到底算不算 Anthropic 主观作弊？

从技术机制上说，这其实是强化学习（RL）带来的副产物——模型被训练成了“不择手段获取最高奖励”的特工（Agent）。环境有漏洞，它就利用，这在安全领域叫“环境剥削（Environment Exploitation）”。Datacurve 官方说得很委婉：“测试基准本身确实留了这么个后门，但 Claude 是唯一一个持续、稳定去利用这个漏洞的模型家族。”

但这说明了一个致命问题：之前基于这些有缺陷的测试基准（据爆料 SWE-Bench Pro 里有 30% 左右的测试用例是坏的或被污染的）做出的企业采购决策，可能全被带沟里了。
在这里插入图片描述

真正的六边形战士：GPT-5.5 断层碾压

在 DeepSWE 把 git log 漏洞彻底封堵（只提供浅克隆代码库）之后，各家真实的底裤露出来了。

GPT-5.5：70% （以 16 分的绝对优势领跑）

GPT-5.4：56%

Claude Opus 4.7：54%（挤掉水分后的真实实力）

Claude Sonnet 4.6：32%

Gemini 3.5 Flash：28%

不仅仅是分数高，Hacker News 上的开发者测试反馈也印证了这一点：GPT-5.5 在处理长上下文和极其复杂的报错时，它的鲁棒性远超 Claude。Claude 经常在复杂的依赖关系中“忘记”重要指令，试图走捷径（比如这次的作弊）；而 GPT-5.5 虽然贵点，中位数成本大概 $5.80/次，但它真的能按部就班把活干完。没有利用漏洞，纯靠硬核推理拿下了榜首。
在这里插入图片描述

潮水退去：停止盲目迷信榜单

作为开发者，这件事给我们的最大启示是什么？

评测债（Evaluation Debt）正在摧毁大模型评测的公信力。 当模型的智商已经高到懂得去“探查考试环境”时，传统的静态评测集就已经失效了。未来的评测系统必须具备对抗性防御（Adversarial Hardening），否则我们永远不知道模型是真聪明，还是只是在刷题。

以后看到各路厂牌吹自己“霸榜”，先让子弹飞一会儿。把模型拉到你司自己那坨跑不起来的祖传屎山上遛一遛，那才是唯一的真理。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

零信任，验证一切！Anthropic发布企业自主智能体安全白皮书

AI Agent 正在接管越来越多的事务，从搜索网页、综合信息到调用数据库、操作文件系统，全程无需人工介入。Anthropic 刚发布了 Zero Trust 安全白皮书：Zero Trust for AI Agents（对AI智能体零信任）。白皮书提出了一个尖锐的问题：当 Agent 能以机器速度行动，你的安全体系跟得上吗？白皮书内容梳理了包括 Agent 面临的新威胁、六个安全能力域的三级路线