GoForum › 🌐 V2EX

OpenAI 自废 SWE-bench Verified：基准污染后， AI 编程分数还能信吗？

Zane3 · 2026-02-25 11:27 · 0 次点赞 · 0 条回复

先说结论：跑分看个参考就行，别太当真。

OpenAI 最近发了篇博文，宣布停止使用自家的 SWE-bench Verified 基准。查出了两个致命问题：

SWE-bench 的题目来自开源 GitHub 仓库，而这些仓库也是模型训练数据的来源。OpenAI 做了污染检测，发现所有前沿模型（ GPT-5.2 、Claude Opus 4.5 、Gemini 3 Flash ）都能复现标准答案：

这不是能力强，是背过答案。

审计了 138 道题（约 28%），每题至少 6 名工程师独立审查：

同一批模型：Verified ~80%，Pro ~43-50%。分数腰斩。

0 条回复

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: Zane3

发布: 2026-02-25

点赞: 0

回复: 0