今天我们讨论关于人形机器人普及的话题。前不久,马斯克在年度股东大会上说,特斯拉公司今后的主力产品是人型机器人Optimus,其次才是纯电动车。特斯拉公司的市值会达到25万亿美元,而今天全球市值最高的三巨头每家也不过3万多亿美元。马斯克的预测还包括了未来会有10亿到30亿台人型机器人的需求,特斯拉会占据其中10%的市场份额。以售价2万美元计算,特斯拉每台还可以赚1万美元。也就是说,每台人型机器人的成本是1万美元。今天全球汽车总数大约是15亿,所以马斯克设想的那个未来,人型机器人的数量跟今天的汽车是类似的。因此,很可能对于城市居民来说,每个家庭也许不止拥有一个机器人。今天一辆车的价格集中在10万到30万之间,也和马斯克预估的今后机器人的售价2到3万美元差不多。
那么,今天一个能力还比较弱的人型机器人成本是多少呢?我们来分析一下。机器人要模拟人的运动,需要把关节上的直线运动和旋转运动精细地搞定。这不仅需要电机、减速器、传感器、视觉单元、运算单元、控制单元。今天Optimus机器人全身的旋转关节共有14个:肩部6个、肘部2个、腰部2个、髋部4个;线性关节14个:上臂2个、前臂4个、大腿4个、小腿4个。手部因为灵活性要求很高,还有额外的12个关节。每个旋转关节需要配备一个力矩电机、一个斜齿轮减速器、两个编码器、一个力觉传感器。而每个线性关节需要配备一个力矩电机、一个滚珠丝杠、一个编码器、一个力觉传感器。每个手部关节需要一个空心杯电机、一个行星减速器、一个涡轮蜗杆和扭杆的传感器。再把今天这些零件的大致价格带入,再把视觉的摄像头、计算芯片、电池和铝合金骨架也算上,今天预估一个Optimus机器人的成本大约是人民币30万。价格还要再降80%才能达到马斯克的那个目标——1万美元。而一个完全的新产品成本下降80%,其实只要量产的规模到位了,并没有什么难度。所以别看马斯克在股东大会上描述的那个世界很科幻,但实际上那个未来并不遥远。
今天做人型机器人的公司很多,最著名的就是最近十几年,时不时就放出一个视频的Boston Dynamics。此外还有一些在大型机器人模型出现之后亮相的,具备高级沟通能力的人型机器人,比如说Figure 01。但如果从所有的厂商里挑一个综合实力最强的,今后最有发展前景的,那就是特斯拉的Optimus。其实人型机器人的发展,看特斯拉一家就足够了。这个逻辑有点类似于今天谈论火箭发射,我们只要看SpaceX就足够了。
为什么这么说?首先是技术,其次是成本。
特斯拉在汽车自动驾驶上,一开始就另辟蹊径选择纯视觉。这其中首先就是成本上的考量。那个时候一台多线的激光雷达跟车一样贵。马斯克坚信,只要人眼可以看清的细节,自动驾驶也应该能够反映过来。用上6-8个单价几百块钱的摄像头就足够了。但后来他依然铁了心坚持用视觉,那就是由其他方面的考量导致的。因为2021年特斯拉筹划人形机器人的时候,觉得这种东西在特定的区域工作,只会用到视觉,而不会用到毫米波雷达,更不会用到激光雷达。于是特斯拉自动驾驶方面的数据和训练模型,是可以直接移植给机器人用的。这个时候,如果把自动驾驶的方式再切换成激光雷达,那就得不偿失了。为了这两种产品在视觉方面的研发能够统一,这才坚定了他自动驾驶只使用摄像头的路线。
而现在看来,其他厂商的人形机器人的纯视觉功能显著落后于特斯拉。而且Optimus的人形机器人的性能改进是非常迅速的。在2022年9月,第一次公开亮相时,Optimus是由四个工作人员扶持着上台的,生怕它哪一步走不好摔倒,整个发布会给它搞砸了。那个时候的Optimus也只是向观众挥了挥手而已。一年过后的2023年12月,它已经可以叠衣服了。
特斯拉机器人叠衣服
又过了半年,在2024年5月,特斯拉又发了一段视频,让我们看到了它的又一次大幅提升。在半年前叠衣服的时候,Optimus背后还连着各种数据线,而且背后还站着工程师随时调整机器人的动作。而今年5月份的视频里,Optimus展示的分拣电池的动作,这个场景就已经有了实用性了。因为真正的特斯拉工厂也有这样的工作——就是要把4680原型电池按照顺序摆放在塑料格子里。并且这次Optimus背后没有任何的线缆,也没有工程师在旁边实施调试。特斯拉的工程师朱利安·巴慈在视频里给大家补充道,说Optimus现在可以自主完成分拣电池的工作,而且可以几个小时一直干下去,直到我们需要给Optimus充电。视频中还有一个细节,是Optimus有一个电池没有拿稳,掉到了格子之间,它主动捡起来,重新塞进了格子中。
特斯拉擎天柱人形机器人在特斯拉工厂内进行电池分类
这 个视频透露出很多的领先之处, 为什么呢?
首先它是端到端的任务执行。 因为除了特斯拉和少数其他几个机器人之外,大都是任务端到工程师再到机器人的过程,中间加了一个工程师加工处理的步骤。 比如说从视频看最有经验的那个波士顿动力的机器人,你别看那些飞檐走壁运送工具包的机器人,像忍者一样灵敏,但实际上任务的执行步骤是这样的: 首先要设定任务,让机器人把楼下的一个工具包给楼上的工程师送过去。 接着要由那个工程师编程,让机器人通过视觉搜索工具包的位置,规划从机器人当前位置到工具包的路线,然后捡起袋子,再规划一条上楼的路线,最后把工具包给主人自己再返回。 全部动作是需要工程师逐条设定的。 设定完还不行,还要在电脑里的仿真平台上反复模拟多次,比如说轨迹设定的合理性、有没有碰撞、路径的修正、速度的规划等。 多次模拟之后认为没问题了,再把这些指令输入到动作解码器,解码器再把动作程序转化成液压关节的控制参数,最终那个机器人才能完成送货。 这中间可能已经花了十几个小时了。 而我们看到的那段惊艳的视频,是十几个小时之后最后二十秒的成果展现。 所以只要不是端到端的任务执行,就是不具备实用价值的。 而Optimus是自己识别物体、自己完成动作编码、自己执行任务的,中间不再掺杂工程师的辅助,也不需要联网。 而其他的机器人哪怕可以做到端到端,持续性也不行。 同样的任务里,十次成功三次失败七次,当然这已经是不错的了。 而Optimus可以站着不动,连续几个小时成功地完成手部的任务。 尽管这个任务动作并不复杂,但这个体力活在特斯拉工厂今天就确实有人在做。 它真的可以替人完成一部分真实工作。 而且这段展示中,其他Optimus机器人也在做分拣的工作,有的是分拣衣服,有的是分拣货物,有的是放在格子里,有的是放在盒子里。 也就是说特斯拉训练的机型模型已经有了不错的学习能力。 尽管当前的速度大约只有人类熟练工的四分之一,但后续提升空间肯定会很大。 而且就算是只有四分之一,机器人是不需要睡觉和吃饭的。
马斯克说,在今年年底就会部署一些Optimus机器人在特斯拉工厂,真的从事简单的工作。我觉得大概率没有他说的这么快,因为马斯克通常都会吹点牛,但他吹的牛也通常会延迟一些兑现的。所以大约在2025年上半年,我们会看到人型机器人在工厂上班。这个上班并不是demo演示,而是真的从事工人的劳动。不过这些机器人进工厂,并不是为了直接取代工人,而更多是为了收集数据,提高训练的性能。再下一步的规划呢,就是要手脚协同完成工作了,对应的工作可能就是搬运货物。特斯拉在这方面也有得天独厚的优势,因为这也是特斯拉工厂里的真实工作。所有为纯电动汽车生产而设置的厂房,工厂也天然成为了人型机器人的训练场地。环境是真实的,任务也是真实的,机器人是自己家开发的,也为了今后可以做类似的工作。于是在数据的收集和实验的调整上,简直是太友好了。而除了特斯拉之外,其他任何人型机器人公司都没有这样的条件,提升机器人在真实环境中工作的可靠性。毕竟咱们想,哪家公司会以很高的配合度,甘愿去当另外一家人型机器人公司的小白鼠呢?
今天虽然业界有很多对人型机器人应用场景的设想,但我想,这些预想出来的技术路径的分岔,在PPT里显示出来的优势和劣势,都远比不上特斯拉Optimus对产业界的影响。
产品形态的终局是什么,并不是靠分析得出来的,而是一个路径积分的过程。谁在哪种重要零件上削减的成本最狠,这些技术路径选择就对终局多一分塑造的作用。而特斯拉无疑是整个人型机器人业界最大的影响因子。他选了哪种电机、哪种减速器,哪种的成本就会下降得最快。这个规律就有点像前几年Meta喊出的元宇宙,实际上这个行业就他砸钱最多。那么他定义的产品形态差不多就是元宇宙的核心了。他如果不做元宇宙了,元宇宙就没有了。从这个规律上来看,创业者们也不必绞尽脑汁,为人型机器人找使用场景。特斯拉的那一套就是未来的形态。