上谷歌都要翻墙吗
与两个月前发布的ChatGPT相似的是,RT-1同样是一个基于transformer架构的通用大模型;
作为一个通用机器人大模型,RT-1可以以97%的准确率让机械臂在厨房中执行700多项常见任务,并拥有了一定的泛化性。
而在RT-1背后,最关键的是Google Research一个16人团队,耗时17个月,花费上千万美金,用13台机器人收集的13万条真实机器人运行数据组成的训练数据集。
谷歌RT系列相继面世,引起了全球机器人团队的高度关注,大家都开始拆解研究谷歌RT系列成果,思考大模型究竟能为机器人带来怎样的泛化能力。
也是在这时,深度参与了RT系列模型研发的谷歌机器人科学家Karol Hausman从谷歌拉出一支团队,声称要为全球机器人造一个通用大脑。
Hausman为从谷歌“拉出”的这支团队,起了一个很接地气的名字——Physical Intelligence,直译过来是「物理智能」。
π0不是一款机器人,而是PI团队花费八个月时间造出的一个通用机器人基础模型,PI团队希望,这个模型可以让人们像使用ChatGPT这样的chatbot一样,便捷地使用机器人。
PI团队这里所说的机器人是任意品牌、任意形态的机器人,可以让这些机器人执行通用任务,也可以通过微调让这些机器人在专业场景执行专业任务。
由于这一形态最适合机器人“练手”,适合训练机器人手眼脑协调执行任务的能力,也一直是机器人,尤其是人形机器人的最简配置。
“让人工智能赢得一场国际象棋比赛或发现一种新药来说很简单,但让它执行叠衣服或清理桌面这样对人类来说再简单不过的任务,却很困难。”
为了构建能够执行类人任务的人工智能系统,在π0研发的这八个月里,PI团队最主要的工作就是采集数据,并通过大量数据来对这一模型进行高强度的训练。
据官方透露,π0的训练数据主要来源于目前行业中的开源数据集,以及他们自己通过8台机器人执行多样化任务积累下来的数据。
第一,从OpenAI的GPT-4V、谷歌的Gemini这样的预训练视觉语言模型(VLM)中继承语义知识和视觉理解能力,PI团队基于此获得的30亿参数的VLM进行再调整,以适应机器人的实时灵活控制;
第二上谷歌都要翻墙吗,基于PI团队自研的流匹配(flow matching)算法,为VLM模型提供连续动作输出,以使其可以实现50次/s的频率输出运动控制指令;
第三,基于开源的机器人数据集和基于基于互联网数据训练的VLM,PI团队形成了自己的视觉-语言-动作流匹配模型,并通过自采集的高质量机器人数据对这一模型进行后续训练;
相较于年初在学术界闹得沸沸扬扬的斯坦福团队遥操作的Mobile ALOHA而言,π0真正实现了完全自主执行任务。
PI团队就单一指令简单任务、复合指令复杂任务,以及叠衬衫、杂物装袋、从烤面包机中拿出吐司几个任务,对π0、π0-small(未使用VLM预训练的470M参数模型)与OpenVLA、Octo进行了对比,得出的结论是,π0实现了全面碾压。
正因如此,PI团队在美国大受追捧,截止目前已经先后拿到了7000万美元、4亿美元两轮融资,包括红杉资本、Khosla Ventures、Thrive Capital、Lux Capital等知名投资机构都挤进了这一项目。
大模型让全球看到了一条通向通用人工智能的路,这不仅让全球科技巨头为之骚动,也让一大批创业团队涌入了这条赛道。
马斯克曾为还未面世的GPT-5的训练做过一个估算,他认为,OpenAI训练GPT-5大概需要3-5万张H100,仅仅是买卡,就需要6-10亿美元。
另一个来自于市场研究机构CB Insights的统计数据显示,2023年,全球生成式AI新创企业一共融到了204亿美元,即便是国内,人工智能领域融资就有232笔,融资总额达到了20亿美元。
面对这样一个烧钱的大家伙,只进不出是肯定不行的,毕竟投资人的钱也不是白拿的,他们更在乎实际的经济价值和应用效果。
AI PC、AI手机,尤其是AI机器人不断涌向,就连不关注商业化的波士顿动力创始人Marc Raibert也主导成立了波士顿动力人工智能研究院。
而波士顿动力转向电驱后的Atlas,也在近日放出了在工业场景全自动执行搬运任务的Demo视频——告诉Atlas搬运位置,它就可以将零件自动搬运到相应位置。
人形机器人要进入产业,目前一个关键技术瓶颈是任务执行的泛化性,这就对人工智能算法提出了很高的要求。
他现在的方法是,通过预训练模型用来教会这个大脑有关物理世界的规律和知识,通过微调让这个大脑能够很好地执行特定任务。
不过,经由这一模式研发的π0,实则仍然算不上机器人通用大脑,要想造出机器人通用大脑,整个模型的微调过程就需要由机器人自动完成。
在PI官方博客中,Hausman的团队也坦然承认,“通用机器人策略依然处于起步阶段,我们还有很长的路要走。”
强大的通用策略,继承了预训练大模型的语义理解能力,整合了来自不同任务和机器人平台的数据,实现了前所未有的灵活性。
作为脱胎于谷歌RT系列项目的明星团队,又是只做通用软件的中立团队,据悉,PI团队已经和多家机器人公司和实验室展开合作:
另一方面,引入合作伙伴的数据,将这些数据整合到PI团队的预训练模型中,提升模型的泛化性和兼容性。
作为被黄仁勋、马斯克、奥特曼等科技巨头掌舵者看重的未来产业,也是具身智能最重要的形态,人形机器人由大脑、小脑、肢体三大核心部分组成。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。