当前位置：首页 > Deepseek应用场景 > 正文内容

机器人基座大模型——下一个“DeepSeek”从这里来？

8个月前 (03-13)Deepseek应用场景441

随着人工智能与机器人技术快速交汇，按照Anthropic联合创始人兼政策主管Jack Clark本周一的表态，机器人行业即将迎来类似生成式AI模型的早期发展时期——GPT-2时代！各家机器人基座大模型将积极争夺机器人“大脑”的主导权，这或将推动下一个“DeepSeek时刻”的涌现。

近日，Google DeepMind 就推出了用于机器人技术的人工智能模型，认为这是能提升通用机器人实用性的重要里程碑。

这个机器人基座大模型名为 Gemini Robotics 和 Gemini Robotics-ER，旨在利用大语言模型的推理能力，帮助机器人适应复杂环境，从而完成现实世界中的复杂任务。

Google DeepMind表示，使用这一新模型训练的机器人能够折叠一只折纸狐狸、根据口头指令整理办公桌、缠绕耳机线，并在迷你篮球框上扣篮。他们还与初创公司 Apptronik 合作，利用这项技术打造人形机器人。

而且，本周华为天才少年稚晖君创立的智元机器人发布全球首个通用具身基座模型——智元启元大模型（Genie Operator-1，简称 GO-1），使机器人告别了“看得懂但做不来”的时代，学习能力实现了革命性的提升。

智元机器人表示，GO-1模型通过视觉-语言-隐式-动作（ViLLA）架构，利用人类视频进行学习，实现了小样本快速泛化，降低了具身智能的门槛。有人认为，这一创新不仅为机器人提供了全面的“基础教育”，也推动具身智能进入新的发展阶段。

根据中泰证券闻学臣团队最新研报，具身智能是机器人与人工智能发展的交汇点。随着人工智能进入生成式大模型时代，机器人也逐步从传统工业场景向通用泛化场景转型。具身智能通过智能体与环境的交互，实现了感知、推理、执行的闭环，为机器人赋予了真正的“大脑”和“身体”。

而按照Jack Clark的说法，我们现在正处于机器人生成式模型的“春天”，机器人领域将会有大量的公开实验和创新：

像支持Anthropic或OpenAI的那些大规模生成式模型，其训练成本高达数千万美元（甚至更多），并且能够带来非常可观的收入。相比之下，机器人模型——至少目前是这样——要便宜得多，而且几乎没有什么收入可言。

正因如此，我们现在正处于机器人生成式模型的“春天”——充满发明创造和激动人心的探索。同时，由于资金尚未大量涌入，目前还没有足够的经济动力去改变公开研究和专有研究之间的激励机制。

机器人和AI的交汇点

中泰证券认为，具身智能是机器人与人工智能发展的交汇点。

报告写道，机器人的通用性取决于泛化性的发展程度，自20世纪50年代以来，经过多轮发展，机器人开始从传统的自动化工业场景机器人，向通用泛化场景的机器人方向发展。而人工智能在几十年发展过后，在今天迎来了智能程度、通识程度更高的生成式大模型时代。

中泰证券表示，在当前时间点，人工智能可以真正为机器人赋予“大脑”，机器人也可为人工智能提供“身体”，两者深度融合，而融合的交点——具身智能，则是人工智能与机器人相互促进发展而形成的必然的产业趋势。

根据报告，具身智能是2024年科技产业投资的最大热点。头部人形机器人的本体研发集成厂商已经历多轮融资，估值较高，行业整体投资热点正从人形机器人本体向具身智能模型和其他上游零部件迁移。

从模块化走向One Model编到端

报告指出，目前具身大模型可以分为两大流派：

端到端大模型：能够直接实现从人类指令到机械臂执行，即输入图像及文本指令，输出夹爪末端动作。

分层具身大模型：不同层次模型协作，上层大模型进行感知与决策，底层硬件层和中间响应快的小模型进行决策的分解与执行。

目前，由于受数据制约难以达到性能要求，端到端大模型尚未成为主流选择，更多厂商还是选择以分层模型为机器人的具身智能。

通往One-Model端到端大模型是个循序渐进的过程。报告指出：

根据智元机器人定义的路线图，当前具身智能大脑已经具备认知、推理、规划的能力，且而小脑层面机器人技能任务的训练也是通过深度学习以驱动的。随着场景、数据的增多，多个特定小模型会逐渐泛化为通用操作大模型，并最终实现与上层模型的融合。

如何解决具身大模型的痛点——数据？

机器人需要用海量数据进行训练，使其变得更加智能。但机器人是非常新的领域，严重缺乏训练数据的积累。对应而言，目前主要的数据收集方法有四种：远程操作、AR、仿真、视频学习。

智元机器人已经建立起一套完整的数据采集系统。根据报告：

2024年，智元机器人在上海建了一座数据采集工厂，该数据采集工厂投入使用两个多月，就采集了超百万量级真机数据集，采集任务超一千种。现在智元数据采集工厂投放了近百台机器人，日均采集3-5w条数据。

12月30日，智元机器人宣布开源 AgiBot World（智元世界）。智元AgiBot World数据集包含超过100万条真实机器人操作数据，覆盖家居（40%）、餐饮（20%）、工业（20%）、商超（10%）和办公（10%）五大场景，涵盖80余种日常技能（如抓取、折叠、熨烫）和3000多种真实物品。数据质量从实验室级上升到工业级标准。

2025年2月，智元机器人宣布推出自主研发的大型仿真框架AgiBot Digital World，为机器人操作提供灵活的仿真数据生成方案、预训练的大规模仿真数据和统一的模型评测标准，同步开源海量仿真数据。

万亿级市场机会

从专用到通用，从ToB到ToC，人形机器人产业的未来充满希望。

中泰证券指出，短期来看，任务相对聚焦，对泛化能力要求不高工业制造场景下的任务正在更快进入商业化阶段。在工业制造场景实现商业化落地之后，海量机器人的具身数据叠加算力技术的进步，机器人的能力将循序渐进逐步解锁，并向商用服务、家庭服务等更开放的场景进行延伸，届时市场有望达万亿级。

报告还指出，作为机器人的“大小脑”，在硬件已达到较高工艺水平的情况下，具身智能的技术能力或将成为机器人发展的天花板。当前多家领军机器人企业均已各自的方式在具身智能领域投入较多资源与精力，以提升自家机器人的泛化行为能力。

标签: DeepSeek