业内流传着“不做硬件的具身智能公司,不是好公司”,其背后逻辑是:如果想在软件上登峰造极,必须深度理解硬件特性,而要发挥硬件极限也需软件在架构与调度层面予以配合。这种融合,需从设计之初就埋入系统。但现实是,我们常听到厂商抱怨“做算法根本不懂硬件,做硬件的又不会算法”,两拨人几乎是各自为战。
作者:彭堃方
编辑:吕鑫燚
出品:具身研习社
是什么桎梏了人形机器人的行动?到底是硬件跟不上还是软件能力不足?关于这一问题,业内的争议已经展开。
在不久前的ALL-IN SUMMIT上,马斯克被问及Optimus目前硬件与软件哪个更难突破?他坦言:我们仍在为硬件的最终设计而挣扎。而当主持人追问:假如硬件挑战得以解决,基于大语言模型(LLM)的进展,是否就能实现自然的人机交互,使机器人听懂指令、执行任务?马斯克则信心十足地回应:没问题。
和马斯克硬件焦虑形成鲜明对比的是,宇树科技王兴兴则在多场合表示“硬件够用了”,相反在AI领域,他认为“让AI干活整个领域目前都是荒漠”。王兴兴认为,目前数据和模型都是机器人的难点。AI模型本身的能力也还不太够,没办法让机器人真正用起来,比如AI模型难以很好地控制灵巧手。
这两种看似对立的观点,恰恰反映出同一本质困境。问题的核心或许并不在于“软”或“硬”单一维度的落后,而在于二者之间缺乏有效的协同与融合。
而这问题的答案也不应该只由整机厂来回答,更应该听听上游的声音。
近日,具身研习社和亚德诺半导体(ADI)进行沟通,作为上游核心硬件和解决方案提供商,其视角跳出了单一的软硬件孰优孰劣的二元对立视角,转而以“协同”思路判断。
ADI院士兼技术副总裁陈宝兴表示,问题的核心在于AI与硬件的深度集成。“比如抓取一个鸡蛋或其他物品,就需要优化。机器人需要知道物体的性质、用多大的力、如何防滑等具体要求。这些都需要硬件与软件、AI与控制的深度集成,我认为这还有大量的工作要做。”
这或许也是为什么我们很难看到灵敏的、聪慧的、动作有的放矢的机器人。其已经超出了单纯的软件或硬件所能独自解决的范围,如何让软硬件更好的系统性协同或许是未来的主要攻关方向。
硬件真的够用了吗?
自从王兴兴在WRC说出:“目前的硬件某种意义上是完全够用的”,一时间引发了业内巨大争议。但事实上,王兴兴旋即就提到了一个硬件普遍的难点:“更大的问题是把它(硬件)量产”。无独有偶,马斯克甚至直言:人形机器人没有供应链,必须从头开始,自己设计。这也是他的量产计划推迟的重要原因。
因此硬件的第一个明显的难点是“缺乏标准”。即便市面上已有成千上万种来自工业、汽车等领域复用的零部件,却始终缺少专为机器人设计的。简单来说,硬件能用,但并不是好用的,因此也有了业内流传的观点“硬件制约软件”正成为束缚模型落地的现状。
造成该现场的根本原因在于:其一,人形机器人属于初期阶段,体量较大的供应商,并不愿意分散精力投入到一个利润极为有限,财报无法增色的产线上去。所以,各种零部件的不适配加上特定零部件的量产能力、良品率等问题,最终让这个在技术上已经鲜有卡点,但工程化问题却十分明显的硬件,成了人形机器人铺展开的一道障碍。
其二,不同人形机器人厂商技术路线相差巨大,不管是本体硬件也好,亦或者是大脑模型,技术均未进入收敛期,不同的AI算法与不统一的硬件平台之间更加难以匹配,于是诞生了另一道障碍,硬件“缺乏AI能力”的问题。
换句话说,硬件与软件之间过于解耦,就像提线木偶断了线一样。因此,当前真正的难点在于缺乏如同智能硬件所强调的“AI原生设计”,这也是陈宝兴口中所说的“要加速人形机器人的创新和落地,最重要的是AI与物理智能紧密、深度融合”。
陈宝兴把“AI和物理智能”的关系类比成“大脑跟身体”的关系,比如AI是机器人的“大脑”,负责学习、推理、决策。物理智能是“身体”,负责感知、运动、与环境互动。他认为只有两者深度融合,机器才能像人一样灵活、聪明、可靠。
物理智能的核心是高性能传感器,ADI的机器人团队正致力于将其传感器和执行器模型集成进 NVIDIA 的 Isaac Sim 平台,如此可以模拟真实世界的物理反馈,训练可直接部署的控制策略,从而实现Sim2Real,从仿真到现实的突破路径。
ADI认为想要实现物理智能有两个要点,这也正是目前ADI主要发力点:第一,要能够与大脑(即中央处理单元)配合;第二,要注重与小脑(即类似脊髓反应相关的部分)紧密相关,例如神经元层面的功能——包括感知神经元、运动神经元,以及灵巧性方面的实现。
举个例子,电机、驱动器能否快速、精准地执行AI下达的“非标”指令?例如,如何让一个关节在需要时瞬间输出爆发力(如起跳),又能实现极精细的力度控制(如捏住鸡蛋)?这过程中,就要求硬件本身具备低延时、高带宽、高精度的特性,并能进行包括触觉在内的多维传感器的数据传输进行边云间通信与计算,这都要求AI算法深度适配。
这样看来,硬件的问题不仅仅是单纯的“缺乏行业标准”,又或者是更具体的“力量”“成本”“尺寸”“可靠性”等指标,而是如何被AI高效、精准、低延迟地驱动和控制的问题。这本质上是一个软硬件协同设计的难题。
从“软硬全栈”到“软硬融合”
长期一段时间,软硬件两手抓的企业成为资本市场的宠儿。但这里有一个误区,“软硬件全栈”应该超越PR层面,进入到真实的“软硬件协同”“软硬件融合”,就像我们说“AI原生硬件”一样,机器人本身作为大AI硬件在规划、研发阶段就围绕AI进行设计与搭建。
业内流传着“不做硬件的具身智能公司,不是好公司”,反之也有人赞同。其背后逻辑是:如果你想在软件上登峰造极,必须深度理解硬件特性,而要发挥硬件极限也需软件在架构与调度层面予以配合。这种融合,需从设计之初就埋入系统。但现实是,我们常听到厂商抱怨“做算法根本不懂硬件,做硬件的又不会算法”,两拨人几乎是各自为战。
总之,软硬一体化策略的成果案例在手机赛道已经很多了,如苹果、小米、华为等,不再赘述。就说狭义上的模型厂商中也有像OpenAI收购io,要做AI原生硬件;Meta做AI眼镜;字节做AI耳机;钉钉做AI录音硬件等。
目前来看,具身智能赛道也有部分企业意识到这种融合的重要性,这部分企业可以分为两种,一种是意识到软硬件协同的。硬件在设计阶段就通盘考虑,有清晰的接口和分工,是目前主流努力的方向。这些企业会预留开发接口,为特殊场景设计硬件构型、尺寸以及加装定制参数的零部件、功能模块。
当然这是较普遍的做法,更高阶的状态应该是“融合”。它打破了传统的软硬件界限,你中有我,我中有你。硬件为软件算法而生,软件为硬件特性而写。
例如,为特定的强化学习算法设计专用的计算芯片和传感器;在AI模型训练中引入硬件物理响应(如弹性、摩擦系数)的建模;硬件的设计也会为了适应AI的决策频率而优化,比如模型推理间隙,由端侧芯片自主完成触觉反射调节。
当前仅有少数领头羊开始探索“融合”,大多数企业仍未进入软硬件“协同”阶段。
也正是因此,软硬件融合将会是具身企业的竞争力与新机会,也会推动具身赛道走向进一步落地。但这远不是本体厂商自己的命题,上游需一同努力。
例如,ADI作为上游厂商,在让机器具备有思想、有触感和有行动力的过程中,主要针对四个关键环节:感知(sense)、连接(connect)、解译(interpret)、控制(control),而这四个环节正好串联起机器人软硬件协同。
从感知看,机器人需具备视觉、触觉等能力,未来通过“多模态感知融合” 判断物体形态、提升灵巧度;从连接看,机器人需高速稳定的 “神经网络” 连接;而解译则是对这些传感器原始数据和各部件动态信息进行分析、理解;进而控制系统作为机器人“大脑皮层”,负责运动规划与执行,最新 AI 驱动的运动控制算法可实现其多关节协调与复杂动作。
我们可以看到,硬件与软件之间的“结合部”存在着明显短板,蕴藏着众多机会。
人形机器人的发展,一定是一场软硬件协同进化的旅程。不是硬件够了软件没跟上,或者软件行了硬件拖后腿,而是它们必须像生物界的脑与身体一样,彼此塑造、耦合反馈、不可分割。未来的突破,将依赖于我们能否用技术创新与工程智慧加速这一“共同进化”的过程。
特别声明:本文为合作媒体授权DoNews专栏转载,文章版权归原作者及原出处所有。文章系作者个人观点,不代表DoNews专栏的立场,转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)