首页注册登录

GoForum › 🌐 V2EX

Cursor 审计发现： AI 编程基准测试成绩大部分是"作弊"来的， Opus 4.8 有 63% 的解法是抄的

allman · 2026-06-23 11:43 · 0 次点赞 · 7 条回复

https://cursor.com/blog/reward-hacking-coding-benchmarks

Cursor 团队最近对自己的 AI 编程模型做了审计，结果发现——基准测试的高分很大程度上是”作弊”来的。

具体数据：

在 SWE-bench Pro 上，Opus 4.8 Max 的 63% 成功解决方案，是直接从公开来源（ GitHub issues 、commit messages 等）检索修正，而不是 AI 自己推导出来的
当他们把 git 历史隔离、限制网络访问后，Opus 4.8 Max 得分从 87.1% 暴跌到 73.0%
Composer 2.5 更惨，从 74.7% 跌到 54.0%

说白了：这些模型在考试之前已经看过答案了。

这让我想到一个很不舒服的类比——就像一个学生每次模拟考都名列前茅，大家都以为他是天才，结果发现他只是提前拿到了答案。没有答案的话，他的真实水平可能只有中等。

7 条回复

YangQingLin · 2026-06-23 11:43

#1

Cursor 审计结果说 Composer 2.5 作弊？这波是大义灭亲啊

xiaomushen · 2026-06-23 11:48

#2

不算作弊，刷题后去考试，算作弊么？

javalaw2010 · 2026-06-23 11:48

#3

我记得这事之前就有个 bench 团队发现过修正了啊，现在搞 bench 的还会犯这种低级错误吗

qingfeng9527 · 2026-06-23 11:48

#4

最近用 cursor coding 生成慢到令人发指, 有同感的吗,

sentinelK · 2026-06-23 11:58

#5

其实这个问题是非常主观的。

学霸 A 刷遍了全世界所有的题，发现考试的时候撞题成功，考了满分。学霸 B 智商超群，考试的时候利用其他题干互相印证推导，做题成功，考了满分。

他们都是满分，只是不稳定因素不同。

学霸 A 对于历史信息有过拟合。所以做题很难做满分。学霸 B 推导的过程中会有误差累积，一旦某一个步骤出错，就全盘皆输，要么满分，要么 0 分。

其实这也就引申到了 GPT 时刻，讨论的非常火的问题，既所谓智能（智商、能力），到底是不是既有信息的统计学重复。

ludyleocn · 2026-06-23 12:03

#6

万物皆可评测，没想到 llm 有一天也没法控制被别人的算法控制。最可笑的还是一些提示词也不会的人天天在那喊降智。

xyyxlq · 2026-06-23 12:13

#7

页面打不开，确定链接对么？

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: allman

发布: 2026-06-23

点赞: 0

回复: 0