GPT-5.5 真能让人用得舒心吗?怎么在我这跟弱智一样
纯吐槽贴。太长不看:听不懂人话。
本贴接续 https://www.v2ex.com/t/1218023 ,因为上个帖子里有人说「不用 Codex ,模型性能当然差!你的抱怨都是无效的」,所以我最近换用了 Codex ,继续吐槽几个例子。
以下例子均使用:官网 GPT Pro 账号(让美国朋友帮忙注册的)+ 最新版 Codex + 开 xhigh (有思考过程) 。已用几个账号质量检测站检测过「是否是满血模型」,均为 100% 通过。
要求它「合并代码,先运行编译测试再 commit 」。我刚说完这句,还在 Skill 里特意强调了一遍。结果它改完代码什么都不跑、什么都不查,转头直接 commit 了。指令遵循能力令人汗颜。
要求它「把一个代码文件复制到另一个位置」。结果它不去调 cp 命令,硬是用 Write 工具,花了几分钟把一个几千行的文件用 LLM 逐字「复制」了一遍…… 不是,我的 token 是大风刮来的吗?
要求它「复现并研究一个用户 bug 报告」,报告大意是「启动应用时会正确跟随系统的颜色主题;但启动之后再改系统主题,必须重启应用才生效」。结果它写了个只测「应用启动时能否读取主题」的调试用例,跑完发现「启动时确实能读取主题」,就告诉我无法复现、然后放弃了。说人话就是,报告明明说「 A 场景正常、B 场景有 Bug 」,它却只测了 A 场景,发现正常(这不废话吗),就认定报告无效…… 这是智力正常的 LLM 能干出来的事?
这个在上个帖子里也提过。让它看一份 review 、和我讨论怎么解决,它直接自作主张,一口气「读完了 review 、研究了代码、挑了个自己喜欢的方案、还写好了 review 回复」。要不是我及时掐断,它都要调用 GitHub CLI 、以我的身份去回复别人了。另一次,要求它「读一份 bug 描述、定位代码问题」,结果它非要跟我讨论「这个 bug 报告的英文措辞不准,该怎么改」,就很……无语。
在另一个项目里三番五次强调「要用 uv run 和 pyproject.toml 管理依赖」。它就是不听,非要用 pip 、用系统 python 、用 conda 。再三要求改正,它输出道歉,却连自己刚写的「 uv pip 」都不去改成「 uv add 」。我不说,它就永远不改、也不会主动提醒我。上一个例子非要干没有要求它干的事,这个例子明明是它分内的事,它却什么都不问、不说、不做了。
心累啊。
至于「你怎么不装 Superpowers / 不用 XXX Harness / 不用 XXX 策略」,就这第一个例子,完全干净的上下文都能给我执行一半、丢一半,再多的 Prompt 感觉也没法补救这种例子了。
Anthropic 内部披露,没有 Skills ,Claude 在内部评测里的准确率不超过 21%;加上 Skills 之后,稳定冲到 95%以上,部分领域接近 99%。而且 95%的 Skills 还需要一直升级,否则甚至会掉到 65%。就凭这些信息,你还懒得折腾 skill ?
@jinsongzhaocn 唉唉。我当然用了 Skills 啊,我说「不用提这些」的意思,不是「我一个都没试过,我猜肯定不好用」,而是我全都试了一遍,情况没有改善……
@jinsongzhaocn 你真的认真读帖子了吗?就这第一个例子,你告诉我什么样的 skill 才能让它知道「当用户要求你做 A 、B 、C 的时候,你应该做 ABC ,而不是只做 C 」?
op 是直接用追求目标模式还是开的 plan 模式?如果直接追求目标,可能会出现这种情况,遇到过跳过指令的情况,不过也没那么夸张。但是开了计划,按道理来说,不应该。
试试主动唤醒 skill ,先规划后执行呢?比如: /superpowers:brainstorming <跟上你的 md 文件名和说明> 或者 mattpocock-skills 的 /diagnose , /tdd
我咋感觉你的降智了,你看看你的思考时间是多久?我的思考很少低于 5 分钟的。
有时候确实需要啰嗦很多它才会改方向,比如:
UI 调试:playwright-cli open http://127.0.0.1:8069/ --headed, 注意有-cli 后缀, 不是 playwright.在 Playwright 官方的最新的架构中,playwright-cli 和旧版的含义完全不同,它和 playwright/mcp 正好构成了 AI 浏览器的两大演进方向.这里的 playwright-cli 并不是我们以前理解的“用来跑 npx playwright test 的那个终端命令”,而是一个全新的全局 NPM 包(@playwright/cli )。它是微软专门为了解决 AI 智能体(如 Claude Code 、GitHub Copilot Workspace 、Aider 等)在进行浏览器自动化时极其消耗 Token 的痛点而重新设计的.
@walkon 谢谢,我用了的。
我还可以再举一例:AGENTS.md 里有要求:
findor Glob orglobMUST be used with-print0andxargsmust be used with-0to handle file names with spaces or special characters. MUST use-xdevto avoid descending into slow network filesystems. NEVER find or glob or search files without-xdev.
因为我们的项目里面挂载了网络文件系统,模型有时候喜欢直接全局搜索,会非常慢。
至今为止,GPT-5.5 遵从过这个指令 0 次…… 我觉得我这段话应该已经写得够清楚了,对吧
@canyue7897 别最后发现是网络问题,:-D
@w568w 你是不是写的东西太多了?本来上下文就 258K ,你如果用了 sub2api 之类的,而不是原生的话,真实推理没有多少 K ,那就只剩压缩了。工具调用都占用几十 K 的上下文。
@w568w 你用的 opencode 吗?如果是 cc ,默认不会读 AGENTS.md,需要指明给它
@jinsongzhaocn 我没有开倍速,基本都是五分钟。网络应该不至于,网络用了多年了。
看了你的两个帖子,感觉你的 gpt5.5 确实不正常,至于降智还是什么原因,需要具体排查一下
@jinsongzhaocn 谢谢,你这里我有一点认同的,就是确实是需要啰嗦。
怎么说呢,感觉 GPT 在我这缺乏那种基本的逻辑思考能力,就像一辆不停撞墙的车,不出两轮对话就会把自己引到死胡同或者错误、疏漏的执行路径上。需要不停地手动 steer ,steer 完他才会正常几轮,然后又接着对着墙猛冲……
如果多改正它几次,它就变得畏手畏脚,什么都不敢提、不敢问了,而且每轮对话里都要反复和我强调「我不会 xxx 、xxx 、xxx 」( xxx 是我前面改正它的内容),哭笑不得。
你理解错了,必须要加 skills 。