GoForum🌐 V2EX

高估了 GPT5.5 ehigh 的能力

ryougifujino · 2026-06-22 07:48 · 0 次点赞 · 12 条回复

周末用 GPT5.5 ehigh (全程官方订阅+Codex )写了一个 AI 小说 App 。

PRD 是和 AI 讨论后再 Review 实现的,然后 5.5 根据 PRD 生成实现计划。主要涉及到上下文管理和多 Agent 协作,还是有一点复杂。

用 goal 跑了接近 2 个小时,用的 TDD 的流程开发的,代码看起来像模像样的,测试也很全。结果最后的成品让我大吃一惊,不但点按钮没有任何反应,在把可见是 Bug 通过把报错信息丢给 AI 修复后发现很多地方还是用不了,直接用的模拟数据。而且有很多地方设计也很不合理。

之前在修复某一个 Bug 或者解决某一个单一需求时 GPT 给我的感觉良好,结果这种长程任务没想到完成的这么糟糕,也不知道是模型降智了还是能力上限就在这了。

12 条回复
musi · 2026-06-22 07:53
#1

可能是降智了 我让它拆分重构一个 8k+的 ts 文件 它先帮我 copy 了一份然后 rename 在原始文件中导入这个新的文件 然后和我说重构完成,现在只有一行代码

JasonYip · 2026-06-22 08:08
#2

感觉现在 ai coding 长程任务还是避免 只能人工拆解需求一点点丰富实现到 后面上下文腐化太明显

deepbytes · 2026-06-22 08:18
#3

配合 superpower 或者 ponytail 试试

willm · 2026-06-22 08:18
#4

@musi 完美

maolon · 2026-06-22 08:23
#5

不光削了 thinking effort ,还肯定量化了模型,现在 5.5 蠢的没法用, 我觉得单纯写代码还不如 composer2.5, 和两个月前比根本不是一个模型。

Dream4U · 2026-06-22 08:28
#6

准备上 5.6 了

lujiaosama · 2026-06-22 08:28
#7

@deepbytes 一样的。SUPERPOWER+GOAL+5.5 EXTRA HIGH 仍然不能避免最后端了陀大的出来。只能阶段性人工确认有没有问题才往下。

wuyiccc · 2026-06-22 08:33
#8

是的,昨晚用 5.5 xhigh 写代码,我说让他直接抄我前面的代码就可以了,结果写出来的代码差点给我快气死,

andrew2558 · 2026-06-22 08:33
#9

@musi 这么离谱?

jmliang · 2026-06-22 08:33
#10

Android APP 吗?可以这样,让它写完之后启动本机的安卓模拟器进行功能测试。这样就有闭环。

qazwsxkevin · 2026-06-22 08:58
#11

@musi 100% 用了掺水中转,要么就是写 AGENTS.md 和任务表达上出问题了;

deepbytes · 2026-06-22 09:03
#12

@lujiaosama ……属实难顶

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: ryougifujino
发布: 2026-06-22
点赞: 0
回复: 0