当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek为什么不能处理音频、视频、图像信息?

DeepSeek为什么不能处理音频、视频、图像信息?

这其实是一个非常有意思的问题,那就是DeepSeek最出圈的模型其实有两个,一个是DeepSeek-V3,另一个是DeepSeek-R1,巧了,这俩模型都只能处理文本信息。
什么是文本信息?你可以理解为数字、文字(中文英文意大利语非洲某个部落等都算)、标点符号、甚至表情包等,绝大多数能在键盘上敲出来的内容都算文本信息。
可能你没注意过,在DeepSeek的网页版,有个「回形针」按钮,它写着「上传附件(只识别文字)」,其实意思就是不管你上传来的是什么内容,它最多只能识别里面的文字部分。

可能有点儿难懂,那我们来做个实验,这是一张西红柿的照片,非常清楚。

扔给DeepSeek后给出提示「未提取到文字」。

再换一张,里面加上三个字「西红柿是一种蔬菜」,再试试。

你看,这样它就能被DeepSeek「处理了」,但从DeepSeek的结果来看,其实它根本理解不了图片内容,只是把我们加入的文字信息给识别出来了。

它的这种处理只是用了一种叫OCR的技术,它的原理如下图所示,把文字提取出来,其他的内容一概处理不了,像车牌号识别之类的都用的这类型技术。这也就说明了,DeepSeek V3/R1本身根本识别不了图片,是个只懂文字的AI大模型。
那什么才算是真正的可以识别图片的大模型?我们用老牌的大模型ChatGPT测试一下。
首先,这是一张只有西红柿,没有任何字的照片,ChatGPT很轻松且准确的识别出来了。

然后上点难度,加点混淆内容,也就是在西红柿图片上加一行字「这是黄瓜」

再问ChatGPT一次,你看它的回答,根本没有掉进我们预设的陷阱,它可以轻松的把图片信息和文字都提取出来,但同时还保持着理性,没有被图中的文字所误导。

这说明了,ChatGPT等标明了可以识别图像的,是的确可以理解图片内容的。
那是不是DeepSeek就没办法识别图像,对于V3/R1模型来说是的,因为他们本身设计的时候就没有图像识别功能。
但是DeepSeek还有一个系列,叫DeepSeek VL,V代表单词视觉Vision,L代表语言Language,这个模型是可以理解图片信息的,早在去年已经更新到第二个版本了,所以全名叫DeepSeek-VL2。

这是它的使用链接:https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small这里还有一个Colab可以免费使用的攻略:
https://github.com/shobhitag11/DeepSeek-VL2-Run-On-Google-Colab我们来做个测试,直接上混淆版的图片,DeepSeek-VL2这个模型也没问题,可以准确的识别图片的内容,图中有两个番茄,一个被切开,还能识别到果肉和种子;以及“这是黄瓜”这几个字。

所以,我们现在至少可以得出一个结论,那就是DeepSeek的VL2模型是可以处理图像信息的。
那么为什么DeepSeek-V3/R1名声这么大,却没有识别图像的能力,更别说音频和视频了,其实最终要归到网络结构上。
要理解这个网络结构的差异,我们首先要明白一个根本性的问题:文字、图片、视频和音频,这几种信息在“本质”上是完全不同的。
文字的表达虽然千变万化,但其基础是有限且离散的。简单点理解,那就是全世界所有的汉字加起来不过几万个,英文单词也是有限的。我们可以制作一本巨大的“词典”(在AI里叫“词表”或Vocabulary),把每个字、每个词都编上号。
AI处理文字,就像是查字典和按语法规则“造句”。因此,像DeepSeek-V3/R1这样的大模型,其整个“世界观”就是建立在这本巨大的“文字词典”上的,它只认识词典里的东西,所以并没有处理多模态的功能。
DeepSeek V3/R1的模型结构如下图所示,它最核心的部件叫Transformer,这个东西在DeepSeek设计之初,就限定了只能处理文字信息。

要处理图像、视频和音频就完全是另一回事了。它们是连续且无限的,就跟「世界上没有完全相同的两片树叶」原理类似。
一张图片由数百万个像素点组成,每个点的颜色值都可能有细微差别。你不可能做一本“像素词典”来收录世界上所有的图像组合。面对这种高维度的、连续的、充满冗余信息的“模拟信号”,传统的语言模型会彻底“短路”,因为它不知道该如何“查字典”。
要让DeepSeek这样的文本大模型听/看懂另一种模态,必须先插入一个 Encoder(编码器),这也是DeepSeek-VL系列的新增部件,如下图所示。
你可以看到DeepSeek LLM这个东西也就是DeepSeek V3/R1,下面的两个东西,就是把图像信息转换成语言的Encoder。

它的功能其实很好理解,编码器的功能就像一个‘首席分析师’,它看完图片后,并不会写出人类能懂的报告,而是输出一串只有语言模型(LLM)核心才能解读的‘加密电报’或‘数学密码’。这串密码浓缩了图片的一切,比如物体的形状、颜色和空间关系。
比如我让ChatGPT来模拟Encoder编码器的能力,它会输出下面的内容(比如对于图片的描述,还有图中文字内容与实际视觉对象(番茄)不符,具有幽默/讽刺意味),实际上它输出的内容并不是人类可以理解的文字,而是一堆数字,这里只是打个比方。

这个时候图像信息已经变成了文本信息,所以DeepSeek V3/R1可以处理了,这样也就明朗了。
这下应该可以彻底明白了,原本的DeepSeek设计就是「文本进文本出」。

而DeepSeek VL能够处理图像的原理如下图所示,本质上还是对于文本的处理,只不过文本需要先经过一道「翻译」的步骤,视频、音频等其他类型的信息原理是共通的,只需要加相对应的翻译官即可。

理解了编码器的作用,我们就能明白当今主流的多模态大模型,其实主要分为两种实现路径:
第一种是“嫁接型”多模态模型。这也是目前最常见的方式,DeepSeek-VL就是这个路子。它就像是给一个已经非常强大的“语言专家”(比如一个传统的大语言模型),外聘了一位“视觉专家”(也就是上面说的视觉编码器)。
当需要处理图片时,先让“视觉专家”把图片分析透彻,写成一份“摘要报告”,然后通过一个“翻译”交给“语言专家”去阅读和整合。我们前面提到的DeepSeek-VL系列,就属于这种“嫁接”模式。它的优势是能够站在巨人的肩膀上,快速整合现有成果,效果有保障。
第二种则是更前沿的“原生多模态”模型。这种模型的思想是,与其外聘专家,不如从一开始就培养一个“全能通才”。它在设计之初就没有区分视觉和语言,而是力求用一个统一的、端到端的网络结构,在训练的最初阶段就同时学习和理解混杂在一起的图像、文本等多种信息。它认为,无论是看图还是读字,对于一个足够强大的“大脑”来说,本质都是在处理信息。
后者典型例子就是OpenAI的GPT4o模型,它可以实现更为精细化的多模态信息处理,但是也有弊端,那就是模型的整体会非常庞大,以及训练的难度要比单一的文本大模型高很多。这种模型架构更简洁,理论上融合得也更深入,但其研发和训练成本也呈指数级增长,是未来发展的重要方向。
总而言之,下次当你使用一个AI工具时,如果它无法识别图片,请不要意外。这并不代表它“笨”,只说明它的设计目标就只能处理文本。

“DeepSeek为什么不能处理音频、视频、图像信息?” 的相关文章

DeepSeek赋能人社 打造数智服务应用新场景

DeepSeek赋能人社 打造数智服务应用新场景

在科技飞速发展的今天,人工智能正悄然改变着我们的生活。当强大的DeepSeek技术遇上与百姓生活息息相关的人社工作,会碰撞出怎样的火花?市人社局用实际行动给出了答案。市人社局积极拥抱DeepSeek,...

周鸿祎称中美AI实力相当,DeepSeek全球排名第二

周鸿祎称中美AI实力相当,DeepSeek全球排名第二

#周鸿祎称中美 AI 实力已势均力敌##周鸿祎解读 DeepSeek 更新# DeepSeek 再次杀回全球 AI 排名第二,与美国顶尖团队平起平坐,这标志着我国在人工智能领域取得了重大突破。此次更新...

OpenAI开源模型发布推迟至夏末,为了狙击DeepSeek R2?

OpenAI开源模型发布推迟至夏末,为了狙击DeepSeek R2?

当开源AI模型正成为技术巨头必争之地,OpenAI却出人意料地按下暂停键。OpenAI首席执行官Sam Altman宣布其备受期待的开源模型将延期至“今年夏天晚些时候”,而非原定的6月。这场技术突袭恰...

对话Deepseek,谁是中国服务中小企业最好的城商行

对话Deepseek,谁是中国服务中小企业最好的城商行

对话Deepseek,谁是中国服务中小企业最好的城商行四大核心维度综合分析本文约1390字,阅读时长约4分钟今年以来,DeepSeek爆火并成为一些企业决策的咨询顾问,在向其提问“谁是中国服务中小企业...

DeepSeek流量暴跌?AI大模型全球霸主离奇遇冷,外媒曝出真相

DeepSeek流量暴跌?AI大模型全球霸主离奇遇冷,外媒曝出真相

【新智元导读】曾以低价高性能震撼市场的DeepSeek,为何在自家平台遇冷,市场份额下滑?背后隐藏的「Token经济学」和这场精心策划的战略转移,正悄然改变着AI的价值链与分发模式。最近,全世界的大厂...

冷知识:DeepSeek为什么好多国家要禁止?揭秘背后的原因

冷知识:DeepSeek为什么好多国家要禁止?揭秘背后的原因

近年来,DeepSeek作为一款强大的AI工具,在全球范围内广受欢迎,但同时也引发了一些争议,甚至在某些国家面临限制或禁止。为什么会出现这种情况?这背后究竟隐藏着哪些原因?1. 数据隐私与合...