GoForum › 🌐 V2EX

GPT-5.5 真能让人用得舒心吗？怎么在我这跟弱智一样

w568w · 2026-06-15 15:33 · 0 次点赞 · 20 条回复

纯吐槽贴。太长不看：听不懂人话。

本贴接续 https://www.v2ex.com/t/1218023 ，因为上个帖子里有人说「不用 Codex ，模型性能当然差！你的抱怨都是无效的」，所以我最近换用了 Codex ，继续吐槽几个例子。

以下例子均使用：官网 GPT Pro 账号（让美国朋友帮忙注册的）+ 最新版 Codex + 开 xhigh （有思考过程）。已用几个账号质量检测站检测过「是否是满血模型」，均为 100% 通过。

要求它「合并代码，先运行编译测试再 commit 」。我刚说完这句，还在 Skill 里特意强调了一遍。结果它改完代码什么都不跑、什么都不查，转头直接 commit 了。指令遵循能力令人汗颜。
要求它「把一个代码文件复制到另一个位置」。结果它不去调 cp 命令，硬是用 Write 工具，花了几分钟把一个几千行的文件用 LLM 逐字「复制」了一遍…… 不是，我的 token 是大风刮来的吗？
要求它「复现并研究一个用户 bug 报告」，报告大意是「启动应用时会正确跟随系统的颜色主题；但启动之后再改系统主题，必须重启应用才生效」。结果它写了个只测「应用启动时能否读取主题」的调试用例，跑完发现「启动时确实能读取主题」，就告诉我无法复现、然后放弃了。说人话就是，报告明明说「 A 场景正常、B 场景有 Bug 」，它却只测了 A 场景，发现正常（这不废话吗），就认定报告无效…… 这是智力正常的 LLM 能干出来的事？
这个在上个帖子里也提过。让它看一份 review 、和我讨论怎么解决，它直接自作主张，一口气「读完了 review 、研究了代码、挑了个自己喜欢的方案、还写好了 review 回复」。要不是我及时掐断，它都要调用 GitHub CLI 、以我的身份去回复别人了。另一次，要求它「读一份 bug 描述、定位代码问题」，结果它非要跟我讨论「这个 bug 报告的英文措辞不准，该怎么改」，就很……无语。
在另一个项目里三番五次强调「要用 uv run 和 pyproject.toml 管理依赖」。它就是不听，非要用 pip 、用系统 python 、用 conda 。再三要求改正，它输出道歉，却连自己刚写的「 uv pip 」都不去改成「 uv add 」。我不说，它就永远不改、也不会主动提醒我。上一个例子非要干没有要求它干的事，这个例子明明是它分内的事，它却什么都不问、不说、不做了。

心累啊。

至于「你怎么不装 Superpowers / 不用 XXX Harness / 不用 XXX 策略」，就这第一个例子，完全干净的上下文都能给我执行一半、丢一半，再多的 Prompt 感觉也没法补救这种例子了。

20 条回复

jinsongzhaocn · 2026-06-15 15:33

你理解错了，必须要加 skills 。

jinsongzhaocn · 2026-06-15 15:33

Anthropic 内部披露，没有 Skills ，Claude 在内部评测里的准确率不超过 21%；加上 Skills 之后，稳定冲到 95%以上，部分领域接近 99%。而且 95%的 Skills 还需要一直升级，否则甚至会掉到 65%。就凭这些信息，你还懒得折腾 skill ？

Haku · 2026-06-15 15:33

用一下国产的，你就会发现确实很聪明

w568w · 2026-06-15 15:33

@jinsongzhaocn 唉唉。我当然用了 Skills 啊，我说「不用提这些」的意思，不是「我一个都没试过，我猜肯定不好用」，而是我全都试了一遍，情况没有改善……

w568w · 2026-06-15 15:33

@jinsongzhaocn 你真的认真读帖子了吗？就这第一个例子，你告诉我什么样的 skill 才能让它知道「当用户要求你做 A 、B 、C 的时候，你应该做 ABC ，而不是只做 C 」？

canyue7897 · 2026-06-15 15:38

op 是直接用追求目标模式还是开的 plan 模式？如果直接追求目标，可能会出现这种情况，遇到过跳过指令的情况，不过也没那么夸张。但是开了计划，按道理来说，不应该。

jinsongzhaocn · 2026-06-15 15:38

试试主动唤醒 skill ，先规划后执行呢？比如： /superpowers:brainstorming <跟上你的 md 文件名和说明> 或者 mattpocock-skills 的 /diagnose ， /tdd

walkon · 2026-06-15 15:38

AGENTS.md 用起来，Plan 用起来。

w568w · 2026-06-15 15:38

@Haku 是的，我现在发现 GLM5.2 和 MiMo 2.5 Pro 都比 GPT-5.5 好用，至少

(1) 能听明白我想做什么； (2) 自己不明白的东西，知道要先问我； (3) 没有要求它做的，绝对不做； (4) 有基本的逻辑思维。

GPT-5.5 感觉有时候真的是小脑发育不完全了，逻辑关系都能弄错（测试 A 场景正常，认定 B 场景没事）

canyue7897 · 2026-06-15 15:38

#10

我咋感觉你的降智了，你看看你的思考时间是多久？我的思考很少低于 5 分钟的。

jinsongzhaocn · 2026-06-15 15:38

#11

有时候确实需要啰嗦很多它才会改方向，比如： UI 调试：playwright-cli open http://127.0.0.1:8069/ --headed, 注意有-cli 后缀, 不是 playwright.在 Playwright 官方的最新的架构中，playwright-cli 和旧版的含义完全不同，它和 playwright/mcp 正好构成了 AI 浏览器的两大演进方向.这里的 playwright-cli 并不是我们以前理解的“用来跑 npx playwright test 的那个终端命令”，而是一个全新的全局 NPM 包（@playwright/cli ）。它是微软专门为了解决 AI 智能体（如 Claude Code 、GitHub Copilot Workspace 、Aider 等）在进行浏览器自动化时极其消耗 Token 的痛点而重新设计的.

w568w · 2026-06-15 15:43

#12

@walkon 谢谢，我用了的。

我还可以再举一例：AGENTS.md 里有要求：

find or Glob or glob MUST be used with -print0 and xargs must be used with -0 to handle file names with spaces or special characters. MUST use -xdev to avoid descending into slow network filesystems. NEVER find or glob or search files without -xdev.

因为我们的项目里面挂载了网络文件系统，模型有时候喜欢直接全局搜索，会非常慢。

至今为止，GPT-5.5 遵从过这个指令 0 次…… 我觉得我这段话应该已经写得够清楚了，对吧

jinsongzhaocn · 2026-06-15 15:43

#13

@canyue7897 别最后发现是网络问题，：-D

canyue7897 · 2026-06-15 15:43

#14

@w568w 你是不是写的东西太多了？本来上下文就 258K ，你如果用了 sub2api 之类的，而不是原生的话，真实推理没有多少 K ，那就只剩压缩了。工具调用都占用几十 K 的上下文。

jinsongzhaocn · 2026-06-15 15:43

#15

@w568w 你用的 opencode 吗？如果是 cc ，默认不会读 AGENTS.md,需要指明给它

canyue7897 · 2026-06-15 15:43

#16

@jinsongzhaocn 我没有开倍速，基本都是五分钟。网络应该不至于，网络用了多年了。

qwerasdf123 · 2026-06-15 15:43

#17

看了你的两个帖子，感觉你的 gpt5.5 确实不正常，至于降智还是什么原因，需要具体排查一下

lmmlwen · 2026-06-15 15:48

#18

你这个，还停留在上下文约束上面

w568w · 2026-06-15 15:48

#19

@jinsongzhaocn 谢谢，你这里我有一点认同的，就是确实是需要啰嗦。

怎么说呢，感觉 GPT 在我这缺乏那种基本的逻辑思考能力，就像一辆不停撞墙的车，不出两轮对话就会把自己引到死胡同或者错误、疏漏的执行路径上。需要不停地手动 steer ，steer 完他才会正常几轮，然后又接着对着墙猛冲……

如果多改正它几次，它就变得畏手畏脚，什么都不敢提、不敢问了，而且每轮对话里都要反复和我强调「我不会 xxx 、xxx 、xxx 」（ xxx 是我前面改正它的内容），哭笑不得。

lscho · 2026-06-15 15:48

#20

不明白什么场景怎么用的。。。在我的场景 GPT-5.5 + codex 比 cc + opus4.8 都好用

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: w568w

发布: 2026-06-15

点赞: 0

回复: 0