GoForum🌐 V2EX

deepseek-v4-flash 好像没大家说的这么智能啊?

lynn1su · 2026-05-03 14:20 · 0 次点赞 · 12 条回复

感觉就比 minimaxm2.7 强点,感觉不如 qwen3.6plus ,glm5 和 kimi2.5 啊,我已经用了 2 亿多 token 了,实在没体验出智能 尤其是指令遵循,我在 hermes 中使用时常出现不遵守规则回复。 还有长记忆捞回测试,我上传了 900k 的武林外传的剧本 txt ,回答的很差欸 v4-pro 这个比较很可疑,但是 v4-flash 有时候我感觉和 minimax2.7 坐一桌的

12 条回复
lynn1su · 2026-05-03 14:20
#1

flash 思考强度开的 max

ericguo · 2026-05-03 14:40
#2

3 USD <= 2 RMB ,新的 token 不等式?

dingawm · 2026-05-03 14:40
#3

flash 参数量和 qwen3.6plus ,glm5 和 kimi2.5 不是一个量级的

lynn1su · 2026-05-03 14:40
#4

@dingawm 有的时候感觉和 minimax m2.7 一个感觉,有点破防。。

longxinglink · 2026-05-03 14:50
#5

nvidia 的 API 测试了一下,很多国模无法完成通过 cloudflare API 部署 monolith 博客项目 和 独角兽 next ( Render+free 数据库),性能不如 jules ( Gemini 3.1pro )(在其他论坛说这话会不会被喷)

defaw · 2026-05-03 15:10
#6

至少他真会去自主 gradle 执行任务去拉源码解压然后分析,我没见过 glm5 以下的模型这么干过,kimi 不行,minimax 不行。 ps:最近 3 天 opencode 的 flash 明显变蠢了,不知道咋回事。

forisra · 2026-05-03 15:15
#7

@ericguo 就是这个道理。之前 ilya 还说 ai 要进入研究时代现在看是完全错误,实际上还得是力大飞砖继续堆参数量继续堆显存。

lynn1su · 2026-05-03 15:15
#8

@defaw 量化了估计

ybybwdwd · 2026-05-03 15:20
#9

280 多 b 的参数,本来就是对标 minimax2.7 这个级别的啊

lynn1su · 2026-05-03 15:30
#10

@ybybwdwd 但是晚发这么久,应该有智力上的优势呀

ClericPy · 2026-05-03 15:35
#11

TPS 100+ 的国产模型里,我一直在各种套餐里反复横跳,不知道哪个聪明

minimax2.7-highspeed 、glm5-turbo 、deepseekv4-flash 、mimo2.5

claude code 里约束好各种 md 以后,基本看不出来有啥搞不定的事情,估计是已经被我限定了改动方向了,不像一些人让它自由发挥。TDD + SDD 以后确实很少出问题了

dingawm · 2026-05-03 16:10
#12

@lynn1su #10 每个人使用的场景都不同,每个模型擅长的方向也不同,参考一些比较可靠的跑分结果和你的需求选择吧。我一般不会用各家的小模型的,但是我看 X 上有老外说 v4 flash 效果很好,性价比比 v4 pro 高很多,忘记他说的什么场景了,不过我自己的小任务还是不太考虑用小模型,毕竟用量本来就没有那么大。

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: lynn1su
发布: 2026-05-03
点赞: 0
回复: 0