GoForum › 🌐 V2EX

deepseek-v4-flash 好像没大家说的这么智能啊？

lynn1su · 2026-05-03 14:20 · 0 次点赞 · 12 条回复

感觉就比 minimaxm2.7 强点，感觉不如 qwen3.6plus ，glm5 和 kimi2.5 啊，我已经用了 2 亿多 token 了，实在没体验出智能尤其是指令遵循，我在 hermes 中使用时常出现不遵守规则回复。还有长记忆捞回测试，我上传了 900k 的武林外传的剧本 txt ，回答的很差欸 v4-pro 这个比较很可疑，但是 v4-flash 有时候我感觉和 minimax2.7 坐一桌的

12 条回复

lynn1su · 2026-05-03 14:20

flash 思考强度开的 max

ericguo · 2026-05-03 14:40

3 USD <= 2 RMB ，新的 token 不等式？

dingawm · 2026-05-03 14:40

flash 参数量和 qwen3.6plus ，glm5 和 kimi2.5 不是一个量级的

lynn1su · 2026-05-03 14:40

@dingawm 有的时候感觉和 minimax m2.7 一个感觉，有点破防。。

longxinglink · 2026-05-03 14:50

nvidia 的 API 测试了一下，很多国模无法完成通过 cloudflare API 部署 monolith 博客项目和独角兽 next （ Render+free 数据库），性能不如 jules （ Gemini 3.1pro ）（在其他论坛说这话会不会被喷）

defaw · 2026-05-03 15:10

至少他真会去自主 gradle 执行任务去拉源码解压然后分析，我没见过 glm5 以下的模型这么干过，kimi 不行，minimax 不行。 ps:最近 3 天 opencode 的 flash 明显变蠢了，不知道咋回事。

forisra · 2026-05-03 15:15

@ericguo 就是这个道理。之前 ilya 还说 ai 要进入研究时代现在看是完全错误，实际上还得是力大飞砖继续堆参数量继续堆显存。

lynn1su · 2026-05-03 15:15

@defaw 量化了估计

ybybwdwd · 2026-05-03 15:20

280 多 b 的参数，本来就是对标 minimax2.7 这个级别的啊

lynn1su · 2026-05-03 15:30

#10

@ybybwdwd 但是晚发这么久，应该有智力上的优势呀

ClericPy · 2026-05-03 15:35

#11

TPS 100+ 的国产模型里，我一直在各种套餐里反复横跳，不知道哪个聪明

minimax2.7-highspeed 、glm5-turbo 、deepseekv4-flash 、mimo2.5

claude code 里约束好各种 md 以后，基本看不出来有啥搞不定的事情，估计是已经被我限定了改动方向了，不像一些人让它自由发挥。TDD + SDD 以后确实很少出问题了

dingawm · 2026-05-03 16:10

#12

@lynn1su #10 每个人使用的场景都不同，每个模型擅长的方向也不同，参考一些比较可靠的跑分结果和你的需求选择吧。我一般不会用各家的小模型的，但是我看 X 上有老外说 v4 flash 效果很好，性价比比 v4 pro 高很多，忘记他说的什么场景了，不过我自己的小任务还是不太考虑用小模型，毕竟用量本来就没有那么大。

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: lynn1su

发布: 2026-05-03

点赞: 0

回复: 0