GoForum🌐 V2EX

Cursor 审计发现: AI 编程基准测试成绩大部分是"作弊"来的, Opus 4.8 有 63% 的解法是抄的

allman · 2026-06-23 11:43 · 0 次点赞 · 7 条回复

https://cursor.com/blog/reward-hacking-coding-benchmarks

Cursor 团队最近对自己的 AI 编程模型做了审计,结果发现——基准测试的高分很大程度上是”作弊”来的

具体数据:

  • 在 SWE-bench Pro 上,Opus 4.8 Max 的 63% 成功解决方案,是直接从公开来源( GitHub issues 、commit messages 等)检索修正,而不是 AI 自己推导出来的
  • 当他们把 git 历史隔离、限制网络访问后,Opus 4.8 Max 得分从 87.1% 暴跌到 73.0%
  • Composer 2.5 更惨,从 74.7% 跌到 54.0%

说白了:这些模型在考试之前已经看过答案了。

这让我想到一个很不舒服的类比——就像一个学生每次模拟考都名列前茅,大家都以为他是天才,结果发现他只是提前拿到了答案。没有答案的话,他的真实水平可能只有中等。

7 条回复
YangQingLin · 2026-06-23 11:43
#1

Cursor 审计结果说 Composer 2.5 作弊?这波是大义灭亲啊

xiaomushen · 2026-06-23 11:48
#2

不算作弊,刷题后去考试,算作弊么?

javalaw2010 · 2026-06-23 11:48
#3

我记得这事之前就有个 bench 团队发现过修正了啊,现在搞 bench 的还会犯这种低级错误吗

qingfeng9527 · 2026-06-23 11:48
#4

最近用 cursor coding 生成慢到令人发指, 有同感的吗,

sentinelK · 2026-06-23 11:58
#5

其实这个问题是非常主观的。

学霸 A 刷遍了全世界所有的题,发现考试的时候撞题成功,考了满分。 学霸 B 智商超群,考试的时候利用其他题干互相印证推导,做题成功,考了满分。

他们都是满分,只是不稳定因素不同。

学霸 A 对于历史信息有过拟合。所以做题很难做满分。 学霸 B 推导的过程中会有误差累积,一旦某一个步骤出错,就全盘皆输,要么满分,要么 0 分。

其实这也就引申到了 GPT 时刻,讨论的非常火的问题,既所谓智能(智商、能力),到底是不是既有信息的统计学重复。

ludyleocn · 2026-06-23 12:03
#6

万物皆可评测,没想到 llm 有一天也没法控制被别人的算法控制。 最可笑的还是一些提示词也不会的人天天在那喊降智。

xyyxlq · 2026-06-23 12:13
#7

页面打不开,确定链接对么?

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: allman
发布: 2026-06-23
点赞: 0
回复: 0