来得正是时候
昨天晚上我还在用DeepSeek,心想:啥时候能上识图功能就好了。没想到今天一睁眼——它就来了。
这波更新来得非常及时。大模型竞赛进入2026年,多模态已经是标配。GPT-4V、Claude 3.5 Vision、Gemini Pro Vision……各家都在卷"看图说话"的能力,DeepSeek在这块一直缺位,今天终于补上了。
多了个"眼睛"的DeepSeek
这次的识图模式,简单说就是给DeepSeek装上了一只"眼睛"。之前它只能看文字,现在能看图片了,能识别图片里的物体、文字、场景,还能根据图片内容做推理。
想象一下这些场景:
- ◆• 你拍个菜,问它"这个怎么做好吃"
- ◆• 拍个英文路牌,让它翻译
- ◆• 看到一张产品设计图,让它给改进建议
- ◆• 甚至拍个电脑蓝屏报错,让它诊断问题
这不光是功能的增加,而是交互方式的根本改变。从"只说"到"能看能说",AI的可用性上了一个台阶。
"这谁啊?"——认不出梁文锋的AI
最有意思的一个细节来了。
据媒体报道,有人拿了一张梁文锋(DeepSeek创始人)的照片去测试新上线的识图功能,结果DeepSeek分析来分析去,愣是没认出来这是自家老板。
具体来说:
- ◆• 给的是一张梁文锋比较常见的公开照片
- ◆• DeepSeek能识别出是"一位中国男性"
- ◆• 能识别出"戴黑框眼镜"
- ◆• 能识别出"出席公开活动"
- ◆• 但问"这是谁"的时候——抓瞎了
这个翻车挺有意思的。一方面说明DeepSeek确实很"诚实",没有专门给自家创始人的脸做特殊训练。但另一方面也暴露了多模态模型在"特定人物识别"这个维度上的普遍短板——它知道特征,但不知道特征对应谁。
其实这不算翻车
冷静一想,这个"认不出梁文锋"其实不算翻车,反而说明了几个重要的事:
第一,DeepSeek没有作弊。 如果它专门训练了创始人的人脸识别,测试出来"秒认梁文锋",那反而有嫌疑——是不是专门针对这个场景优化的?现在它认不出来,说明它的多模态能力是通用的,没有针对性训练。
第二,这是所有多模态模型的通病。 GPT-4V也常常认不出Sam Altman的样子(如果角度不对),Claude Vision也给错过Dario Amodei的信息。因为多模态训练数据里,名人的人脸-名字对应关系本身就没有专门标注。不是技术不行,是数据没做那一步。
第三,深度求索没开这个"后门"。 说实话,如果真想,完全可以在发布前把梁文锋的几十张照片塞进去训练一下,让它"认识老板"。但他们没这么做。某种程度上这反而是一种态度:我们的模型是干净的,没有人为干预。
我想自己试试
看到这个新闻,我第一反应不是嘲笑,而是——我要马上打开DeepSeek自己试一下。
毕竟文字描述再多,都不如亲自上手感受。我已经准备好几张图打算喂给它看看:
- ◆• 第一张,一张我自己拍的风景照——测试场景识别
- ◆• 第二张,一张英文海报——测试文字提取
- ◆• 第三张,一张产品功能示意图——测试理解能力
- ◆• 第四张,梁文锋的照片——我想亲眼看看它怎么说
这种"亲自验证"的快感,大概是搞AI的人最享受的事了。
DeepSeek的加速追赶
回顾一下DeepSeek的节奏:
- ◆• 2025年底发布DeepSeek-V3,纯文本模型,惊艳全场
- ◆• 2026年初放出R1推理模型,长思维链能力一流
- ◆• 2026年6月——终于补上多模态这一课
这个节奏说明了一个事实:深度求索从来没有停下来过。 虽然前几个月看起来低调,但实际上多模态的训练一直在推进。选择在6月这个时间点上线,既不是最早(GPT-4V早了一年半),也不算太晚(追赶速度很快)。
对于国内AI生态来说,这绝对是个好消息。又多了一个能"看图"的大模型。
写在最后
DeepSeek上线识图模式——这是今天的一个小新闻。但更有意思的是:"认不出梁文锋"这个插曲。
它提醒我们:AI再强大,也不是全能的。它能分析一张复杂的技术图纸,却认不出自己老板的脸。
这可能就是技术的浪漫之处——总有一些「意料之外」,让人忍不住想继续探索。
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。


评论