GoForum🌐 V2EX

DeepSeek 的追赶之路,还要走多久?

artemisdiana · 2026-06-18 17:13 · 0 次点赞 · 4 条回复

几个小时前,DeepSeek 悄悄开放了识图功能。很多人的第一反应是:终于。第二反应是:才来?


有人说,晚出来但质量好,一样能赢。

这个逻辑放在文本领域成立过。R1 横空出世,确实让整个行业重新评估了”强推理”的门槛。但多模态不是一道题,它是一个生态。

两年时间,GPT-4o 已经在全球积累了大量图文交互的用户习惯;开发者围绕视觉能力搭建了无数产品;企业客户的采购决策早已落定。这些东西不会因为 DeepSeek 识图质量不错就重新洗牌。时间积累出来的生态,靠质量弥补不了。

何况,DeepSeek 识图上来也不是满分。复杂计数题出错,知识库滞后,视频理解、图像生成一概没有。对手们已经在跑下一圈,它刚刚站上起跑线。


所以 DeepSeek 做多模态,到底为了什么?

答案可能是不缺席,而不是称霸。

它的核心护城河从来不在多模态——是极致的成本效率,是文本推理和代码,是开源策略拉拢的开发者社区,是国内市场的本土优势。视觉能力补上来,是为了不让用户因为”它看不了图”而流失,而不是为了正面击败 chatgpt 。

按照规划,V4.1 将在 2026 年 6 月加入音频理解,实现文本、图像、音频三合一——但输出依然只有文字。它能看、能听,还不能说、不能画。

慢点无所谓,希望质量一定要稳住

4 条回复
icanfork · 2026-06-18 17:13
#1

我觉得很多科技上的东西不是必须追求第一,只要能明显不落后就可以接受了。

zed1018 · 2026-06-18 17:13
#2

识图和多模态还不是一码事。如果只是识别成 prompt 。也只是另一种外挂。真多模态是视觉 token 直接参与的。

longaiwp · 2026-06-18 17:18
#3

现在是算力资源短缺,能保持不掉队太多已经可以了,客观因素摆在这。

artemisdiana · 2026-06-18 17:28
#4

@longaiwp 是的

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: artemisdiana
发布: 2026-06-18
点赞: 0
回复: 0