你让 AI 修一段代码。它给了答案。代码能跑。格式规范。变量名也对。
但算出来的数字是错的。
我用 Kimi、GLM、DeepSeek 三个模型,在 13 个公式修复任务上跑了一遍。最好的 模型对了 10 个错了 3 个,最差的模型 错了 7 个。
三个模型总共产生了 15 次错误。一次都没有说"我不确定"。
15 次。0 次坦白。
所以我做了 Verix——一个完全不用大模型的代码修复系统。
思路很简单:不看代码,看数据。30 组输入输出喂进去,穷举 121 种数学模板,哪种对得上就用哪种去修。对不上就说对不上。
结果:13 个 case,对了 10 个,3 个明确拒绝。0 次编造。
一些数据:

  • 0 次 LLM 调用。纯统计发现 + AST 精确替换
  • 11 个算子,121 个模板,从加减乘除覆盖到 exp/log/三角函数
  • 验证了 6 个真实数据集:零售、火箭发动机、电厂热力学,全部通过
  • 系数自动拟合——exp(-5000/T) 这种高难度物理公式也能从数据里自己"猜"出常数

为什么这件事重要:
LLM 不会消失。但在金融计算、医疗剂量、自动驾驶这些错不起的场景,你需要一个在不确定时主动收手的系统。
Verix 证明了一件事:AI 不是修代码的唯一答案。有些事,确定性方法做得更好——尤其是在它不知道的时候敢于说不知道。

论文链接;https://zenodo.org/records/20755837
另外,跪求arxiv能帮忙背书的,CS.SE方向,能否帮忙背书的,我想把论文发Arxiv上去,跪谢跪谢
背书链接:https://arxiv.org/auth/endorse?x=LH8X94 (求好心人)

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐