我测了三个大模型修代码，23%-46%是错的，而且从不坦白！！！

Nister_GEO

41人浏览 · 2026-06-19 23:34:56

Nister_GEO · 2026-06-19 23:34:56 发布

你让 AI 修一段代码。它给了答案。代码能跑。格式规范。变量名也对。
但算出来的数字是错的。
我用 Kimi、GLM、DeepSeek 三个模型，在 13 个公式修复任务上跑了一遍。最好的模型对了 10 个错了 3 个，最差的模型错了 7 个。
三个模型总共产生了 15 次错误。一次都没有说"我不确定"。
15 次。0 次坦白。
所以我做了 Verix——一个完全不用大模型的代码修复系统。
思路很简单：不看代码，看数据。30 组输入输出喂进去，穷举 121 种数学模板，哪种对得上就用哪种去修。对不上就说对不上。
结果：13 个 case，对了 10 个，3 个明确拒绝。0 次编造。
一些数据：

0 次 LLM 调用。纯统计发现 + AST 精确替换
11 个算子，121 个模板，从加减乘除覆盖到 exp/log/三角函数
验证了 6 个真实数据集：零售、火箭发动机、电厂热力学，全部通过
系数自动拟合——exp(-5000/T) 这种高难度物理公式也能从数据里自己"猜"出常数

为什么这件事重要：
LLM 不会消失。但在金融计算、医疗剂量、自动驾驶这些错不起的场景，你需要一个在不确定时主动收手的系统。
Verix 证明了一件事：AI 不是修代码的唯一答案。有些事，确定性方法做得更好——尤其是在它不知道的时候敢于说不知道。

论文链接；https://zenodo.org/records/20755837
另外，跪求arxiv能帮忙背书的，CS.SE方向，能否帮忙背书的，我想把论文发Arxiv上去，跪谢跪谢
背书链接：https://arxiv.org/auth/endorse?x=LH8X94 （求好心人）

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

2026 AI 开发者生存指南（2）：主流大模型选型指南——GPT、Claude、GLM、DeepSeek 怎么选？

AI Agent技术社区

如何让 AI Agent Harness Engineering 与企业指标 KPI 自动对齐：运营驱动式智能体系统设计

语义转化鸿沟：业务侧的KPI语义（如“提升用户复购率15%”）无法直接转化为Agent可执行的动作指令归因鸿沟：Agent的单个动作对KPI的贡献无法精准量化，无法建立动作和业务结果的因果关系响应鸿沟：企业KPI动态调整时（如大促期间临时调整优先级），Agent的配置更新延迟高达数天，无法适配业务节奏：对智能体的目标注入、动作管控、效果归因、迭代优化全生命周期进行标准化管控的工程体系，核心是建立业

AI Agent技术社区

企业级Multi-Agent落地案例：从成本中心到利润AI Agent在智能AI Agent在智能营销中的实战：多智能体协同投放与效果优化

本文将基于国内头部美妆电商年5亿投放预算的真实落地案例，完整拆解企业级Multi-Agent智能营销投放系统的搭建、落地、优化全流程，从需求分析、智能体角色定义、系统架构设计、核心代码实现到效果验证，所有内容均可直接复用在你的企业投放场景中。我们会详细讲解7个不同职能的Agent如何协同完成从市场调研、人群洞察、渠道分配、创意生成、实时出价到效果归因的全链路自动化投放，彻底替代90%的人工操作。