GoForum › 🌐 V2EX
OpenAI 自废 SWE-bench Verified:基准污染后, AI 编程分数还能信吗?
Zane3 ·
2026-02-25 11:27 ·
0 次点赞 · 0 条回复
先说结论:跑分看个参考就行,别太当真。
OpenAI 最近发了篇博文,宣布停止使用自家的 SWE-bench Verified 基准。查出了两个致命问题:
问题一:数据污染
SWE-bench 的题目来自开源 GitHub 仓库,而这些仓库也是模型训练数据的来源。OpenAI 做了污染检测,发现所有前沿模型( GPT-5.2 、Claude Opus 4.5 、Gemini 3 Flash )都能复现标准答案:
- GPT-5.2:给简短提示就能输出完整 gold patch ,精确到类名和方法名
- Claude Opus 4.5:能逐字引用代码注释,准确描述 PR 删掉的代码
- Gemini 3 Flash:只给任务 ID ,就输出逐字匹配的完整 diff
这不是能力强,是背过答案。
问题二:测试设计缺陷
审计了 138 道题(约 28%),每题至少 6 名工程师独立审查:
- 59.4% 存在测试设计缺陷
- 35.5% 是「窄测试」:强制检查特定实现细节,比如测试直接 import 一个特定函数名
- 18.8% 是「宽测试」:检查了题目描述之外的功能
SWE-bench Verified vs Pro
| 维度 | Verified | Pro |
|---|---|---|
| 题量 | 500 | 1865 |
| 语言 | Python | Python/Go/TS/JS |
| 平均改动量 | 11 行 | 107 行 |
| 仓库数 | 12 | 41 |
同一批模型:Verified ~80%,Pro ~43-50%。分数腰斩。
原文: https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
0 条回复
添加回复
你还需要 登录
后发表回复