GoForum › 🌐 V2EX

DeepSeek 的追赶之路，还要走多久?

artemisdiana · 2026-06-18 17:13 · 0 次点赞 · 4 条回复

几个小时前，DeepSeek 悄悄开放了识图功能。很多人的第一反应是：终于。第二反应是：才来？

有人说，晚出来但质量好，一样能赢。

这个逻辑放在文本领域成立过。R1 横空出世，确实让整个行业重新评估了”强推理”的门槛。但多模态不是一道题，它是一个生态。

两年时间，GPT-4o 已经在全球积累了大量图文交互的用户习惯；开发者围绕视觉能力搭建了无数产品；企业客户的采购决策早已落定。这些东西不会因为 DeepSeek 识图质量不错就重新洗牌。时间积累出来的生态，靠质量弥补不了。

何况，DeepSeek 识图上来也不是满分。复杂计数题出错，知识库滞后，视频理解、图像生成一概没有。对手们已经在跑下一圈，它刚刚站上起跑线。

所以 DeepSeek 做多模态，到底为了什么？

答案可能是不缺席，而不是称霸。

它的核心护城河从来不在多模态——是极致的成本效率，是文本推理和代码，是开源策略拉拢的开发者社区，是国内市场的本土优势。视觉能力补上来，是为了不让用户因为”它看不了图”而流失，而不是为了正面击败 chatgpt 。

按照规划，V4.1 将在 2026 年 6 月加入音频理解，实现文本、图像、音频三合一——但输出依然只有文字。它能看、能听，还不能说、不能画。

慢点无所谓，希望质量一定要稳住

4 条回复

icanfork · 2026-06-18 17:13

#1

我觉得很多科技上的东西不是必须追求第一，只要能明显不落后就可以接受了。

zed1018 · 2026-06-18 17:13

#2

识图和多模态还不是一码事。如果只是识别成 prompt 。也只是另一种外挂。真多模态是视觉 token 直接参与的。

longaiwp · 2026-06-18 17:18

#3

现在是算力资源短缺，能保持不掉队太多已经可以了，客观因素摆在这。

artemisdiana · 2026-06-18 17:28

#4

添加回复

你还需要登录后发表回复