义柏研究院|具身智能专题研究:开启智能通用机器人的奇点时刻
2024-01-24 20:23 作者:义柏
01
什么是具身智能?
具身智能拥有支持感知和运动的物理身体,可以进行主动式感知,也可以执行物理任务。更重要的是,具身智能强调“感知-行动回路”(perception-action loop)的重要性,即感受世界—对世界进行建模—进而采取行动—进行验证并调整模型的过程;这一过程正是“纸上得来终觉浅,绝知此事要躬行”,与我们人类的学习和认知过程一致,是类似于人类自我中心感知的学习,可以帮助解决更多现实世界中的问题。
具身智能适用于哪些场景,可以实现什么?
-
第一代智能机器人以执行程序为导向的功能性机器人为主,集成专用控制器,结合垂类算法开发,对行业最大的改变在于提升了整体自动化能力;具身时代的机器人将更具智能性,具备实体世界感知及理解、预测规划、行动决策的能力,可在更多场景应用,真正替代人力; -
它的感知及决策层面不再像传统AI仅从图像、视频、文本等数据库中学习,而是基于自身传感器感知环境,并通过与环境交互进行学习。未来的机器人需要真正做到和人一样,并实现更强的人机交互能力,打开更多商用、家用场景的想象空间。
以工业场景为例,工业机器人的开发交付门槛一直较高,机器人的任务和功能需经过工程师手动编写代码、反复调试后,才能匹配特定的任务需求;
-
具身智能在机器人任务中增加了推理决策的能力,可以代替人类完成场景拆解。人类的感知天然是多模态的,我们听到一个东西(声音或文本)可以想起它的模样(视觉),客观的词(token)在人脑中是多模态存储的。具身智能可与视觉、触觉等感知技术结合,实现将这些不同模态的信息编码成同样维度的向量,就像人脑中的多模态存储,图像、文本、声音甚至一些物体的状态都能对应同一个token; -
与视觉、触觉等感知技术结合,通过AI自动学习周围环境,自动设计最优路径及操作轨迹,减少人工调试部署的时间; -
为机器人执行任务提供推理决策的能力,并自动翻译成机器可以理解的轨迹,指挥机器执行任务,有效提升生产效率。
在商业化应用方面,我们判断行业将以ToD/ToB端为前期落地切入点,ToB端为率先规模放量之起点,长期会向ToC端渗透,逐渐走向千家万户:
-
在具身智能浪潮下,大量科研机构(高校/实验室/公司)纷纷入局,科研往往专精于极其细分的前沿领域,其对于机器人各个环节均有不同程度的需求。据了解,其中最迫切的需求有两点:一是由于大部分科研机构都不具备自行设计组装机器人本体的能力,因此需要外购一个适合科研二次开发的产品;二是希望能有比较成熟的开发工具及开发者生态平台,帮助构建应用开发的基础设施。对于科研型客户来说,他们既需要一个构型合理、兼容性高、接口丰富、有一定基础运动能力、可靠性高的机器人产品,同时也需要一个提高开发效率、集成各类基础开发工具的软件平台; -
根据EduRank基于学术成果来源的统计,全球开设有Robotics专业的高校数量便有1348家,全球开设AI专业高校数量亦有5521家,在具身智能浪潮下上述机构无疑是有明确需求的基础市场;同时未来还将会有大量新的科研组织(包括新设专业的高校、政府等设立的实验室、公司的研究部门)带来新的需求,共同打造开发者生态的繁荣。
ToB领域:
-
2022年全球工业机器人出货量超过55万台,保有量达到数百万台,而工商业场景中,仍有大量复杂工序、需要柔性能力的环节尚未被机器人覆盖,比如无序分拣、柔性物体折叠、复杂装配、整装产线等场景;目前机器人的智能化水平也不够高,无法在复杂、动态、开放的场景做到真正替代人类劳动力; -
目前全球尤其欧美,均在面临劳动力短缺、工人成本日益升高的问题,据Mckinsey预测,到2030年欧洲将迎来1350万适龄劳动力的减少,全球约4亿人的岗位可由机器人替代; -
具身智能机器人更具泛化性,可在更多场景解放劳动力。
ToC领域:
-
办公及家用场景中,伴随大量需要情感交互、复杂动作操作的需求,整体应用成熟度相对低; 据国家统计局数据,全国中等收入人群超4亿人,对应约1.5亿家庭,另外胡润研究院统计,中国600万元人民币资产以上的“富裕家庭”数量已达508万户,未来智能家用机器人将以这些家庭为主要目标群体,对应想象空间极大的增量市场。
为什么现在关注具身智能?
通用人工智能已发展到一定程度,具身智能一定是人工智能的下一个浪潮
以大语言模型涌现能力为代表的认知智能已取得较大突破,而具身智能是AGI的下一个浪潮。其工具链成熟、机器人大模型涌现可行、技术路径逐渐收敛,可迎接商业化的拐点,实现通用机器人能力,向家用、更高智能化及无人化场景拓展。
AGI与物理世界/机器人的融合是必然趋势,且将诞生百亿级美金的公司:
-
机器人也需要一个通用基础模型,来理解真实物理世界中的规则和常识、学习到真实世界的模型,具备这个能力后才能融入真实场景的需求; -
Google、Stanford等顶级团队也入局具身智能的研发浪潮,但目前尚未有能构建物理世界大模型底层能力的团队。且由于机器人数据获取困难,互联网大厂也并不具备明显优势,与机器人领域内的“小厂”及创业公司处于同一起跑线; -
具身智能可能是商用AI场景中,唯一适合创业公司入局的大场景,未来也将有机会诞生机器人界的“OpenAI”,给行业带来颠覆性的升级机会。
除了上述以大模型为代表的“智能”层面的发展,“具身”层面的Robotics(机器人学)也取得了长足的技术进步,为具身智能的到来奠定了基础:随着整机设计和运动控制技术的不断成熟,机器人的运动能力和综合性能不断成熟,服务机器人、四足机器人已走向产业化应用;即便是最前沿的人形机器人,目前虽然还有一定的技术难题需要被攻克,也已开始从高校走向创业企业、从实验室走向应用场景探索。
02
具身智能体主要包括三大板块:负责顶层决策的“大脑”、负责核心运控的“小脑”、负责执行动作的“身体”
-
零部件各细分领域多已有成熟供应商,发展方向为形态创新及细分技术的迭代,未来也将以规模化及降本为主要驱动。本体进展基于各细分方向的发展进度,同时也依赖于构型设计的整体Know-How;
-
小脑是底层控制及实现操作鲁棒性的核心,会与先身体尤其是本体构型适配;
-
大脑将最先突破硬件限制,可与硬件能力解耦、实现通用化,是具身行业的最后一块拼图。
03
具身智能体不同板块的技术发展方向
大脑:解决物理世界常识认知的问题,负责“感知-推理-预测-行动”的模型
在具身大脑领域,谷歌、李飞飞等团队已经做了大量的工作,比如PaLM-E多模态大模型的结合,能够对机器人的任务进行规划,LLM可以把他所做的事情调用到下沉的控制器,去按照这个顺序来做任务,这也是一个非常重要的,尤其是谷歌在具身大模型方面主要的技术路线。
对物理世界的感知与预测能力是实现通用智能的必要前提:
-
纽约大学终身教授、Facebook人工智能研究院首席科学家Yann LeCun曾于2022年提出“World Model”概念,主旨为人工智能应根据世界模块预测的行动,进行一系列最小化成本的行动分解;LeCun在2023年演讲中提出:如何让 AI 能够像人类一样能真正规划?可以参考人类和动物是如何快速学习的——通过观察和体验世界 -
目前机器人在感知-预测-决策方面还有很大的能力缺失,AI 的能力距离人类的能力,还有差距——主要体现在逻辑推理和规划,语言大模型目前只能做到“本能反应”。
纵观全球,现阶段国际大脑板块的技术路径暂未完全收敛,国际上以Google为代表的顶尖团队也在持续探索与迭代通用任务的实现方式。目前具身智能仍处于早期阶段,尚未出现绝对意义上具备成熟通用大脑能力的公司,本文我们选取了国际上在学术地位、实际应用研究处于前沿的团队作为案例,希望借助他们的发展经历和技术路径为国内创业公司提供一些思路:
SayCan:由LLM将抽象的高级指令拆解为动作(Say),然后有affordance function来判断动作的可行性(Can)。在这个过程中,LLM扮演了推理决策的角色,将人类给出的抽象指令拆解为几个预先设定的子任务,为机器人提供可能的下一步的动作,affordance function(相当于评委)判断这个动作行不行。
PaLM-E
PaLM-E (562 Billion parameters) = PalM (540B) + ViT (Vision Transformer, 22B)
定位:PaLM-E本身是个多模态的大模型,主要用于自然语言、文本及图片的理解,在于planning层面
-
与SayCan相比,PaLM-E的提升在于视觉-语言模型层面,之前只是一张图片有对应语义信息(图片分类),谷歌在之前的基础上加入了物体实例级分割,得到了图片中物体的信息。并且将图片中物体的状态信息作为一个新的模态进行了编码,这也是PaLM-E的明显提升:新增了状态估计这个模态,这里状态估计包括机器人的状态,也包括物体的状态(比如位姿、大小、颜色等)。 -
能实现的功能:PaLM-E可以让机器人执行其demo展示类似推方块的任务。人类仅仅给出“将方块按颜色分类到角落”的自然语言指令,PaLM-E可以自主将任务拆解为特定颜色到特定位置,然后推动各颜色方块到各个角落。整个过程可以理解为上层prompt直接放进LLM - 直接解码 - 放进控制器去执行。
RT-1/RT-2/RT-X
-
RT-1用了13万条底层示教任务的数据,用人操纵PaLM-E去完成,用到的imitation learning方式,是偏统计学的模型,能执行拿起、放下、向左、向右等基本指令;
-
RT-2的主要更新在于利用大模型的优势生成Low-level的机器人运动指令,其输出主要为序列信号;框架是控制机器人的视觉 - 语言 - 动作(VLA)模型,在VLM的基础上增加了VLA,基于网络和机器人数据进行训练;建立在 RT-1 的基础上,并与 Web 规模的视觉 - 语言数据集一起进行训练,通过知识迁移可以先让模型在网上学习大量知识,然后将这些知识与视觉模型对齐,机器人模型可以理解并处理在训练数据里没见过的新对象、新环境和新背景,RT-2定义了13项任务;
-
RT-X:Google DeepMind与33家学术研究机构汇集了22种不同机器人类型的数据,涵盖100万个片段,展示了机器人500多项技能和16万项任务表现,创建Open X-Embodiment数据集,这是目前最全的机器人数据集。RT-1及RT-2可基于此数据集进行训练,提升准确率,实现新技能的解锁。
VoxPoser
- 定位:LLM+VLM+机器人的路径,多模态视觉大模型
-
先用代码在物理世界构建 - 调用算法 – 完成非基于学习的传统算法;实现方式为给定环境的RGB-D 观测和语言指令, LLM 生成代码与 VLM 交互,产生一系列在机器人的观测空间中建立的 3D 机会图和约束图(统称为值图),然后将组合的值图作为运动规划器的目标函数,用于合成机器人操纵的轨迹。这个路径能实现最简单的基础动作的运动规划和执行,但多数情况只能在初始轨迹中实现零样本训练。
VoxPoser模型架构,引自论文
- 团队背景:斯坦福终身教授、谷歌首席科学家李飞飞;斯坦福大学助理教授吴佳俊,清华姚班校友,博士毕业于MIT。
Tesla FSD/Optimus
- 定位:Tesla是以多模态大模型和动态场景构建大脑的代表,FSD(Full Self-Driving Computer)为泛机器人行业构建“World Model”,部署至Optimus完成各类任务
-
FSD是一套包含感知、规划、执行在内的端到端架构,基于端到端的神经网络训练框架,以视觉输入为主,基于Transformer及Self-attention机制、强化学习的框架构建“大脑”,并通过部署Optimus机器人收集数据、通过自成闭环的数据收集引擎不断优化神经网络。
- 团队背景:机器人团队负责人Milan Kovac,也是Tesla Autopilot工程总监,曾任Sony、Skully等大厂软件工程师
可以看到,具身机器人实现泛化的要素与大语言模型有较大的区别,互联网巨头可以在大语言模型的训练中利用自身强大的数据优势,但机器人世界并没有足够优质的底层数据供训练,仅是语言模型结合的方案也不能真正实现泛化能力,只能做到特定动作指令的理解与执行。在实际研究和应用中,可泛化模型架构的设计和机器人数据集是具身智能落地的两大难点:
-
与环境交互涉及毫秒级决策,对偏静态/统计学的模型架构提出挑战,出现微小失误就会导致整个任务失败,现有语言大模型的框架无法直接套用到机器人世界; -
机器人仿真数据与真实世界差异较大、缺少真实数据集,Sim2real也依赖于真实数据的基础,这样仿真的数据分布迁移到真实世界中才能做到现实和仿真的对齐;且机器人学习数据收集难以规模化、收集难度高,特别是涉及到物体操作知识解析的部分,这也带来了规模化数据采集成本居高不下的问题。
我们认为,具身大脑领域,玩家实现通用能力的关键要素为:
-
可泛化的模型框架:需要具备抽象物体特征、提取数据要素的能力,可高度抽象真实世界物体特征要素,能够在真实开放的环境下具备场景泛化能力;理论上大小脑的训练是可以解耦的,大脑可独立于硬件形态先做到通用,并适配到不同的构型;
-
算法性能与数据的平衡:可在机器人世界也应用scaling law,算法能够随着数据规模的扩大而有更优的性能;
-
高质量数据采集及利用能力:需要具备可规模化的数据采集体系,以及用真实数据训练模型的能力。即使是Sim2real也需要具备足够的真实数据基础才能将仿真与真实数据做好对齐;
-
实际场景落地及持续商业化的能力:对于大脑模型来说,场景落地与数据训练的飞轮效应非常明显,只有当模型能够在真实场景应用、部署到更多终端才能采集足够的数据,更好更快地迭代,以持续保持优势。
值得一提的是,在小脑的操作板块,数据也是最大的壁垒及护城河,目前发展的blocker很大程度在于数据的难获取性。行业内主流的思路包括真实采集及仿真两大类,目前能自研底层仿真器的能力也是大部分团队比较稀缺的。
对于创业公司来说,产业链的站位及算法、数据的积累至关重要,目前实现大脑能力的技术路径尚未完全收敛,我们看好能从底层构建非rule-base的foundation model、且能够具备相对低成本、可实现的规模化机器人数据采集能力的团队。
-
模仿学习(Imitation Learning):模仿学习专注于从demo中进行学习,比如我们可以给机器人展示一次如何打扫桌子,而机器人的目标就是学出其中的要点,并且自主完成这个任务。优点是方法比较直接简单,可以直接在真实世界中收集数据,缺点是需要人去收集demo,较难规模化 -
强化学习(Reinforcement Learning):相比于MPC依赖于线上优化以及物理模型,强化学习可以让机器人自主学习:智能体能够从环境中获取一种状态,由智能体进行决策,对环境作出一种行为,再由环境反馈奖励信号给智能体,透过多次的上述过程,智能体由过往的经历学习获得的奖励信号最佳的行。以游戏为例,如果在游戏中采取某种策略可以取得较高的得分,那么就进一步强化这种策略,以期继续取得较好的结果;通过激励,具身智能体在模拟器中不断试错最终提升能力。
相比于工业、四足等传统机器人,具身智能机器人在运动控制的实现方面要复杂得多:以人形为例,在实现从动作级到伺服级别的控制过程中往往需多种经典运控方法的叠加整合,方能覆盖机器人目标运动规划到末端执行、从manipulation到locomotion的一系列环节,具备控制频率高、计算实时性要求强等特性。如图所示,参考大致可分为基于运动学&动力学模型的运动控制方法、步态平衡算法和基于策略学习的运动控制方法,且三种方案并非互斥,在人形机器人运动中往往均会涉及,故实际运用十分复杂。
智能机器人运动控制实现的主要难点总结如下:
-
经典运控算法学习难度大:要真正了解一种运动控制算法需要学习其背后的复杂假设和理论模型,并且在求解过程中会涉及大量物理数学原理性的知识,基本上只有对应领域的博士级人才方能很好的掌握,外行人无法承受这种学习难度和时间。 -
运控算法纷繁庞杂,各有所专:经典运控算法不仅学习难度大,而且数量繁多并仍处于不断迭代更新状态,想要时刻掌握最新进展非专业人士不可为。同时各种主流算法之间并非完全替代关系,而是相互补充各有所长,MPC便经常与WBC搭配使用;目前趋势来看未来还将全方位引入机器学习——这一特征也进一步加剧了运动控制的学习难度。 -
机器人运控算法的开发环环相扣,强耦合导致开发难度极高:事实上运控算法在适配不同构型时,从理论上来看并非每个环节都需要进行改变;但目前从实际的开发代码角度,实现各功能的代码彼此混合,处于强耦合状态,导致改一处而动全局;某一模块升级都可能导致整个算法体系的崩溃,这导致只有懂得全套理论和代码的开发者方能完成开发和调优,门槛极高。
运动控制算法与构型紧耦合,目前仍面临瓶颈,未来与机器学习的结合为破局之道
目前足式机器人的主流控制方法是基于模型预观控制(MPC,Model Predictive Control)的上层轨迹规划加上基于动力学模型的下层全身关节力控(Whole-Body Control)。具体来看:
-
MPC首先构建一个关于机器人动态的预测模型,该模型通常是一个简化的物理模型,如单质点模型或单刚体模型,用于近似机器人的整体运动。之后通过设定一个预观时间窗口,将机器人在该时间范围内的运动构造成一个优化问题,其目标是最小化轨迹的偏差、ZMP(机器人重心投影点在地面上的位置)的偏离,同时确保运动的稳定性和动态约束(如ZMP在支撑域内)。随后MPC根据优化问题的解来生成控制指令,并用于指导机器人的实际运动。 -
WBC则是基于机器人的完整刚体动力学模型(描述了机器人的所有关节和身体部分之间的动态关系),将关节力矩的分配表达为一个优化问题,其目标是最小化质心和末端执行器轨迹的跟踪误差,同时满足动力学约束、关节力矩限制、接触力约束等。优化问题的解提供了每个关节所需的力矩,这些力矩随后被用于驱动关节,以精确地实现MPC层规划的运动轨迹。
在实际应用过程中,各个研究团队在模型的选择和具体优化目标约束的设置上各有不同,本文在这里只介绍一个最基础的方案。
现有运动控制方法尚面临瓶颈,与机器学习的结合为破局之道:
现有运控方案无法实现开放环境运动:MPC依赖于对未来状态的预测,而预测的前提是具备准确的环境模型;在开放环境中,由于环境的复杂性和不可预测性,很难建立一个全面和环境准确的模型。并且MPC和WBC需要大量的实时计算,包括复杂的优化问题求解,而在动态变化的不可预测开放环境中,这种计算负担可能导致响应延迟,跟不上变化。目前国内外尚无人形机器人厂商真正实现机器人在开放环境下的自由运动,其背后原因在于传统基于模型(Model-Based)的运动控制方法不具备泛化性。
与机器学习的结合成为相对共识的方向:在机器学习兴起后,学术界也在ML和Robotics的结合领域进行了诸多探索,并伴随这机器学习的进步而发展,大致可分为三个阶段。1)神经网络阶段:以ND(Neuro-Dynamic,神经动力学)、FNN(Feedforward Neural Network,前馈神经网络)、RNN(Recurrent Neural Network,循环神经网络)为代表的神经网络方法不断发展,机器学习从仅能完成模型学习发展到可完成策略学习。2)强化学习阶段:在神经网络的基础上,强化学习不断发展,并通过Sim2Real(Simulation to Reality)不断提升学习决策的效果和泛化的能力。3)深度强化学习阶段:在强化学习的基础上引入深度学习,实现更为复杂和精准的控制,大致分为端到端学习和与基于模型的(Model-Based)控制方法相结合的两种技术方案,考虑到人形的控制复杂性和高频率要求,后者在落地方面相对更具备可行性(比如Cassie也是采用强化学习+基于模型的控制方案),目前学术界还在积极探索中,相信未来数年内会取得突破性的进展。
运控算法与大模型的结合有望真正实现机器人的落地应用:随着大模型的发展,其强大的多模态和泛化能力无疑是对已有运动控制方案的极大提升。虽然其受制于运算效率的限制无法实现端到端控制,相信未来其会在运动控制更多的环节(尤其是轨迹生成)发挥更大的作用,并与实时性强、控制精度高的经典运控算法有机结合。届时,作为“小脑”的运动控制系统向上承接大脑给出的、可适应各种开放环境、运动轨迹指令,向下控制本体整机实现多关节的复杂、精准的动作并进行实时运动调节,如此机器人方有望在B端和C端实现真正的落地。
身体:大小脑功能实现和控制任务最终执行的硬件基础
机器人的身体包括本体和零部件,零部件的发展历史较久,本文暂不详细展开。机器人本体是个相对抽象的概念,是机器人构型、主控系统、各功能模块等多方面的要素之综合,以及各要素在整体中相互关联和互动的方式,为机器人能够完成各项运动任务提供硬件基础。
-
构型:构型主要指机器人的机械结构(一般认为包括驱动系统和机械系统两部分),通俗理解就是机器人长什么样子,而这也是机器人运动性能、乃至控制和感知的基础。其中最为人熟知也最重要的便是关节数量(直接影响自由度数量)、位置分布及选型,很大程度决定了机器人的运动性能的上限所在;当然结构越复杂控制的难度也就越高。同时如前文所述,构型和运动控制算法是紧密耦合的关系,因此构型的合理性会直接影响到机器人最终的运动能力边界。 -
主控系统:是用于控制和协调机器人的各个组件和子系统的核心控制架构(偏硬件),主要包含控制器设计、总线设计、通信协议站、接口设计、硬件加速、算力调度等内容,其直接影响到机器人的计算和信息交换效率,进而影响到控制频率。
在硬件构型层面,目前的方案包括现有机器人形态+轮式/足式(双足、四足)、单/双臂,具备动态移动及操作执行的能力,可应用于不同类型的场景;长期来看,与人的形态更类似的人形机器人有望补充增量场景、完成更多通用型任务,打造具身智能的最佳载体,也对硬件升级提出更高的要求。相信未来多种形态的智能机器人会在各类应用场景落地实现劳动力替代,全面打开具身智能的商业空间;
目前具身智能体的构型包括硬件整体在往更轻便、更灵活、更鲁棒的方向迭代,对技术提出新的要求:
大厂入局催动供应链成熟,成本下降也推动硬件产业化和商业化的临近
-
从硬件来看,以看似“最遥远”的人形机器人为例,其当前成本约为10-15万美元左右,仍处于价格高位;随着特斯拉为代表的大厂入局,带来未来产量预期的显著增加,有望快速实现量产的规模效应,带动工艺的提升和单位成本的快速下降。根据三方数据预计,人形机器人成本将随着量产的实现快速下降,大致分为3个阶段:几千台小批量生产,降本20%-30%至约10万美元;1万-几万台量产,降本50%至5万美元;几十万至上百万台大规模量产,降本70%-80%至2-3万美元; -
此外,零部件供应链的成熟也将推动机器人整机价格走向市场可接受的合理区间,为具身智能的供给爆发奠定成本基础。
机器人的设计可分为正向设计和逆向设计。逆向设计即根据已有机器人的构型(往往是一些学术成果或科研机构的开源方案)和基于构型的已有算法进行仿效和工程化改进,足式机器人领域较为知名的方案多来自麻省理工学院(MIT)、俄勒冈州立大学(OSU)、加州大学洛杉矶分校(UCLA)等北美实验室。逆向设计固然可以快速造出(人形)机器人并且也具备一定的运动能力,但其往往会受到构型和控制方案先天的限制,且无法与实际落地场景进行很好的匹配。譬如以OSU实验室推出的Cassie为代表一类机器人,其设计初衷是为了实验室验证运控算法、展现高速运动能力,因此采用了腿部质量轻、点状脚(脚部自由度较少)的构型,以及基于无缘轮思想的、环境假设较强的、弹簧倒立摆模型(事实上构型和背后理论模型也是紧耦合的)。但同时这也意味着,基于Cassie逆向设计的机器人,一旦应用场景的需求和环境模型发生变化,其运动性能必然大打折扣;并且逆向设计虽然可以仿照大致的机械结构,但背后仍有大量的细节尤其是运控算法方面是很难完全理解和复现,譬如OSU实验室基于Cassie实现的很多运动效果至今也很难在别的实验室复现。
正向设计则是根据潜在场景对于机器人运动性能的需求,从头进行构型设计并且选用最为合适的理论模型,需要考虑从整体构型到传感器算法等纷繁复杂、涵盖软硬件多领域的因素,难度十分之大;但如此方有最大可能性设计出真正契合商用场景需求的产品级人形机器人。从目前商业化进展最快的Agility来看,一方面其背靠OSU实验室具备正向设计能力,一方面其产品Digit也是基于Cassie进行了大量改造包括脚部自由度增加,如此方能满足商用场景的实际需求。
引自知乎号知识分析
主控系统设计Know-How和高性能控制器也是本体运动能力的重要影响因素:
如前文所述,主控系统是一整套是用于控制和协调机器人的各个组件和子系统的核心控制架构,如何兼顾芯片的算力供给和经济性(很多Demo往往是超配算力,导致成本不可控)、通信总线的交换效率、接口的丰富度等各项指标,无疑是一个综合性的、系统性的工作,十分考验本体设计工程师的Know-How。
控制器模块是主控系统中最重要且复杂的模块之一,负责实时接收感知层数据,调整运动轨迹,并协调双足和全身肢体的状态。类于工业机器人的控制器不同,驱控一体在人形机器人中很难实现,原因在于人形的驱动器数量众多,无法做到每个驱动器均对应一个控制器。因此人形机器人往往采用分层控制架构,一般有一个独立于伺服系统的主控制器(也被称作“上位机”)负责整体控制运算。考虑到前文提及的运控算法的巨大算力消耗和强实时性计算要求,如何基于现有的芯片设计出算力足够、稳定可靠且成本在合理范围内的主控制器(此外由于目前人形机器人技术方案和构型尚未收敛,控制器更适合采用模块化和多核异构的配置,以便更换组件,简化创建不同算力、控制器组合的过程),也是影响机器人运动控制的重要因素所在。
开发工具&操作系统:
在以上三大板块之外,我们认为机器人的开发工具和专用操作系统是以往容易被忽略实则对整个产业发展至关重要的一环。
完成机器人的开发需要搭建整套软件栈,主要包括开发工具和操作系统。《人形机器人创新发展指导意见》更是明确指出:构建人形机器人高实时、高可靠、高智能的专用操作系统,推动与通用大模型等技术深度融合,提供安全、稳定、易用的系统平台。开发面向各类场景的应用软件,建设完善人形机器人应用开发平台和工具包,构建丰富的软件赋能应用生态。此外,想要打造具备目标所需运动能力的机器人,往往还需要基于开发工具调试出最符合机器人构型的最优运动控制算法,并部分内置于系统本地的算法库(比如Atlas的离线行为库)。
行业的发展呼唤集成化、低门槛的开发平台
-
现阶段开发工具分散效率很低,算法开发难度极高:由于机器人是一门综合学科,其开发过程中所涉及的软件工具繁多,涵盖建CAD、数学和算法开发工具、仿真软件、开发环境、数据可视化和监控、通用接口工具、特定SDK等,未来还可能涉及到机器学习相关工具。现阶段在上述各类开发工具分散独立,开发者在整套流程中需要反复切换,极其繁琐且易用性极差,仅仅是配置稳定的开发环境可能就需要数十天的时间,极大影响开发效率。此外前文已提到机器人运控算法的开发环环相扣,强耦合导致开发难度极高,这无疑大大提升了开发门槛,阻碍行业的快速发展。 -
我们认为未来会出现一个集成各类开发工具和基础工具包、实现一体化环境配置的机器人通用开发平台,从而极大提升开发效率,减少前期的工作量。同时运动控制算法会走向分层开发——事实上并非所有构型层面的变化都会导致运控算法各模块的重写。而之所以开发长期处于耦合状态是因为运控算法实现分层本身就需要对于每种模型和算法的原理和求解过程具备通透的理解,否则无法抽象出哪些部分是不随构型等的变化而变化的;同时将这些抽象出来的不变的部分进行代码层面的分离和模块化封装也是十分复杂的软件工程,难度极大。但惟有在开发层面实现上述两点,机器人的开发门槛方能大幅度降低,整个行业也才会具备供给起量和生态成型的条件。
操作系统为承上启下之关键,为平台级开发工具之终局
目前业内对何为操作系统尚未形成共识,多基于ROS和Linux自行构建:ROS(Robot Operating System)虽然叫做操作系统,但其需要安装在Linux上方能运行,其作用在于连接真正的操作系统(最起码要具备Kernel)和使用者自己开发的应用程序,本质上相当于一个中间件,是一个分布式的通信框架,帮助程序进程之间更方便地实现通信。因此目前各家人形机器人搭载的方案多是基于ROS和Linux自行开发的,功能参差不齐,且由于采用了大量开源组件,常会出现兼容性或版本升级导致系统不可用的情况,十分不稳定。
引自公众号车路漫漫
我们认为未来随着行业发展势必出现基础功能封装完善的、能屏蔽底层硬件差异的、稳定且统一升级维护的操作系统。诚然目前无论是操作系统的构成,以及每一层的具体实现都尚无定论,但参考操作系统的发展历史我们预计其会包含如下模块和特征:
-
基于内核打造的实时操作系统:提供快速且一致的响应时间,保证机器人控制系统的高效性和可靠性,并且是确保复杂的运动控制和环境交互能够实时、准确执行的基础所在。这一方面需要在任务优先级管理、内存管理、中断处理、资源管理等方面进行诸多设置优化,还需要从保证对于多核异构硬件平台的兼容,让高实时性应用得以在不同算力芯片上高效实现。 -
硬件抽象层HAL:提供了一个统一的接口,用于屏蔽底层硬件的复杂性和差异性。HAL为机器人的各种传感器和执行器提供统一的控制接口,使得控制系统能够兼容不同类型和制造商的硬件组件,增加了系统的灵活性和扩展性;开发人员也因此可以专注于算法和控制逻辑的开发,而不必深入每个硬件组件的具体技术细节,从而提高开发效率和质量。 -
实时主站&进程管理:实时主站负责与机器人的硬件组件进行实时通信和数据交换,而进程管理则负责协调和控制这些数据交换过程中涉及的各个软件进程。实时主站提供的数据需要被各个进程及时处理,以实现机器人的实时响应和控制。 -
本地库Motion Lib:类比安卓时代的UI库或XR中的感知算法库,未来机器人领域也会将基于开发工具调试出的最契合构型特征、实时性要求高、运动(离线)所必需的基础控制算法(一般是model-based)封装入操作系统中,以便实现更高效的计算和通信,既包括MPC、WPC常见运控算法,也包括控制频率更高的状态估计、状态监控、伺服关节状态机切换、运动指令下发、安全保护算法等。 -
应用框架层Framework:除了交互显示界面、管理模块(如电源管理)、SDK等,目前来看更重要的在于如何接入大模型及其应用,并协调本地和云端的计算任务。因此如何实现在机器人的“小脑”和“身体”的基础上接入“大脑”,也将会成为机器人操作系统的关键所在。
《人形机器人创新发展指导意见》明确指出:构建人形机器人高实时、高可靠、高智能的专用操作系统,推动与通用大模型等技术深度融合,提供安全、稳定、易用的系统平台。未来大模型、运控算法、以及二者的结合联动均需要在专用操作系统上运行,部分还会封装为操作系统的一部分,这无疑彰显了操作系统的重要性,但考虑“大脑”和“小脑”目前技术尚未发展成熟,这一工作无疑充满了动态挑战,需要大量的开发工作。此外,现阶段机器人操作系统尚未形成共识,其本身的发展完善也离不开开发平台,因此类比Visual Studio和Windows、Android Studio和Android,我们认为开发平台的终局便是打造出一个机器人专属的操作系统,领先的开发平台供应商很可能也是操作系统的开发&维护者。
如此也将打造出机器人产业的最佳软件生态——底层的硬件差异将会被操作系统很好的屏蔽,集成化开发平台使得底层运控算法的开发难度大为降低,开发者只需要专注上层的模型/算法开发即可;而伴随着机器人大模型即“大脑”的成熟,相信会出现大量面向机器人不同场景下的应用或Agent,软件与开发者生态也将起量。届时机器人将有望成为下一个计算终端,而从作为上承“大脑”、下连“小脑”和“身体”的操作系统,无疑会具备巨大的想象空间。
如前文所述,运控算法和本体构型是紧密耦合的关系,因此头部厂商往往需要兼具本体设计和运动控制的Know-How;譬如技术沉淀最为深厚的Boston Dynamics和商业化进展最为靠前的Agility,均在在本体设计和运动控制方面均具备极深的造诣。目前伴随我国足式/人形机器人行业的快速发展,大量创业公司也雨后春笋般出现,但也需要承认行业整体仍处于十分早期的阶段,绝大多数玩家也是今年才首次发布人形机器人产品。相比之下欧美高校实验室及其孵化的公司凭借数十年的延续性积累,其无论在运动控制技术应用亦或商业化探索方面无疑处于领先身位,虽然目前商业化进展整体来看依然十分有限,但对我国产业和公司的发展无疑有显著的借鉴意义。为此我们选取上述两家十分具备代表性的玩家作为分析标杆,回溯这两家公司的发展历程及经验:
因此在具身小脑运动控制系统领域,玩家成功的关键要素为:
-
具备深厚的机器人运控技术积累和正向设计能力:运动控制尤其是人形机器人的运动控制技术纷繁复杂、难度极高,并且尚有科研层面的问题(譬如基于模型的运控算法如何与强化学习相结合)有待解决,因此唯有具备多年机器人学研究积累和实践积累的团队方有能力实现突破。纵观国外玩家,基本都是依托于某个高校的实验室,具备十年甚至数十年的研发积累,也设计制造过多台机器人。也正因为有科研沉淀及大量机器人的实践经验,方具备正向设计的能力,这也是打造出运动性能优异的产品级机器人的必要条件。 -
贴合行业发展客观规律的产品化和商业化战略:机器人特别是人形机器人行业拥有极长的发展周期,考虑到前文所提及的诸多挑战,我们判断短期内人形机器人难以实现大规模的、广泛的商业落地。对于赛道内的玩家而言,现阶段一方面要进行技术难题上的攻坚,持续进行较大的研发投入,一方面则需要在落地场景方面进行探索。这既考验团队的产品定义能力——产品定义叠加正向能力方能打造出真正符合市场需求的好用的产品,也需要有明晰的商业化路径,率先在细分场景实现落地验证和小批量出货,快速形成自我造血的正向循环。 -
在软件和开发工具层面具备独特思考和能力积累:对于任何具备技术壁垒及创新变革的行业/产品来说,完善的软件架构和低门槛集成化的开发平台均为行业生态快速发展之必需,也是行业先锋快速树立市场认可度、构建生态壁垒所不可或缺的一环。(人形)机器人行业也不例外,可以看到Boston Dynamics和Agility均有开展相关尝试。当然做到这一点绝非易事,这需要具备多款机器人本体&运动控制系统的开发实践经验和技术积累,同时需要具备将Know-How沉淀为软件并进行产品化改造封装的软件工程化能力——而兼具上述两方面的团队放眼全球都是极其稀缺的。
04
具身智能带来颠覆性的产业升级机会,目前整个行业是百花齐放的状态,技术路径的收敛及商业化落地能力都值得关注:
可以看到,具身机器人目前遇到的主要有几大挑战:第一,机器人不能够像大语言模型一样有一个基础大模型直接一步到位,做到最底层的控制。第二,计算能力的挑战。即使谷歌研发的Robotics Transformer模型,要做到机器人控制,距离实际需要的控制水平仍有许多事情要做。第三,如何把机器人多模态的感官感知全部融合起来,仍面临诸多难题需要解决。
——2023“世界机器人大会” 姚期智:人类本身就是世界上相当理想的具身智能体
义柏也看到了不同板块最有技术差异性、学术界认可度及商业化能力、有潜力解决目前挑战的团队,进行布局。我们将持续跟踪业内领先公司的进展,期待下一个重量级行业变革的到来。
参考文献