小鹏放弃DeepSeek的原因找到了
春节期间DeepSeek爆火之际,本土车企纷纷宣布把DeepSeek深度融合进了车机。在这波热潮里,小鹏是少数的例外之一。
抛开细枝末节,抓住主要矛盾,本土车企基于DeepSeek的座舱方案与小鹏AI座舱端侧VLM方案的主要区别到底在哪里?
透过现象直达本质,那些在云端借助DeepSeek超强推理能力的车企在座舱智能系统上走的是端云结合,而小鹏汽车AI座舱VLM完全不依赖云端,座舱智能系统全部在本地实现。
抓主要矛盾,友商的端云结合类似于自动驾驶领域在端到端范式出现之前的分模块方案,在本地做感知,将感知结果上传云端,依靠云端部署的DeepSeek做决策,云端将DeepSeek生成的结果或指令下发给车端,再在车端本地执行。
正如端到端范式的出现使得自动驾驶系统的性能比分模块方案提升了一个数量级一样,小鹏在本地部署视觉语言模型,这种端到端方案在性能上也会大幅度超越传统的端云结合那种分模块方案。
正如感知是自动驾驶的核心一样,多模态感知也是智能座舱的核心,基于这个逻辑,分模块端云结合路线不及小鹏端到端VLM方案的原因大致有二。
同样,端云结合的分模块智能座舱方案在本地感知和云端DeepSeek之间也存在巨大的信息鸿沟。
其二,即便云端DeepSeek随着时间的推移慢慢具备了多模态能力,但根据汽车数据安全的标准规范,作为多模态感知重要组成部分的人脸、表情这些信息是不允许出车的。
对于智能电动汽车这类AI+硬件,人们希望它具备自然交互、自主移动两大核心能力,自然交互对应的是AI座舱的本质需求,自主移动则是自动驾驶系统的核心价值。
先说多模态交互,人类和智能系统之间的人机交互是包含声音、文字、图片、视频、触控等多种信息源在内的综合交互。
小鹏汽车之所以放弃DeepSeek,是因为自然的人机交互需要的本地多模态感知和以文本能力为主的云端DeepSeek之间存在巨大的信息鸿沟。
这里面不仅包括因DeepSeek多模态能力不足导致的模态丢失,还包括因汽车数据安全规范导致的信息细节丢失,模态不足和信息细节丢失最终导致的结果是无法准确判断用户的意图。
人与智能座舱之间的人机交互必须满足一定的实时性需求,比如,触控响应延迟一般要小于100毫秒,手势识别和眼动交互延迟要小于150毫秒,语音响应要小于300毫秒,才能带来流畅的交互体验。
总结一下,在本地部署座舱VLM大模型,不仅能满足本地用户隐私数据不出车的安全要求,还能实现实时的多模态交互。
除了这些优点,本地部署的端侧大模型无需借助云端,从而避开了在海外建设云端运营中心的各种麻烦问题,能够更好地配合出海和全球化战略。
减持不影响战略合作,虽然阿里巴巴对小鹏汽车的持股比例一降再降,但小鹏和阿里巴巴在AI基础设施和大模型两个领域依然保持着紧密的战略合作。
在大模型上,小鹏的座舱VLM选择的基模型极大概率是阿里巴巴24年12月份开源的业界首个开源多模态推理模型QVQ-72B-Preview。
小鹏汽车用于辅助驾驶领域的VLA大模型的云端基座模型参数规模为720亿,在一次媒体交流会上,小鹏汽车高管透露,用于AI座舱的云端基座大模型的参数规模同样为720亿,与阿里巴巴开源的多模态推理模型QVQ-72B-Preview的参数规模高度一致。
至此,小鹏放弃DeepSeek的又一个原因找到了:有更加适合智能座舱应用且来自战略合作伙伴的通义千问QVQ,为何还要选择DeepSeek?
首先,它可以同时处理语音、视觉、文本等多种模态的数据,通过上下文融合进行跨模态对齐,实现对用户意图的精准解析。
其次,它引入了被DeepSeek R1带火的推理能力,能够结合物体识别和物理常识推断用户的行为意图,并具备长时序和长链条的逻辑推演能力,可基于动态视觉而非静态图片进行深度思考推理。
QVQ结合通用常识的动态意图解析能力正是智能座舱从功能响应迈向主动服务的核心突破点,不仅将带来自然交互体验的革新、个性化的场景理解,还可以用于疲劳检测、分心预警、儿童遗忘检测等安全监控领域。
当然了,这并不意味着小鹏可以直接拿来主义,怎么进行微调训练,如何安排数据训练的顺序,中间也有大量的科研工作要做的。
小鹏汽车最近推出的端侧部署VLM的AI座舱给友商们指明了一个值得追随的方向,大家别再端着了,赶快跟上!