上谷歌都要翻墙吗

ipvvvv1个月前翻墙11

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

  与两个月前发布的ChatGPT相似的是,RT-1同样是一个基于transformer架构的通用大模型;

  作为一个通用机器人大模型,RT-1可以以97%的准确率让机械臂在厨房中执行700多项常见任务,并拥有了一定的泛化性。

  而在RT-1背后,最关键的是Google Research一个16人团队,耗时17个月,花费上千万美金,用13台机器人收集的13万条真实机器人运行数据组成的训练数据集。

  谷歌RT系列相继面世,引起了全球机器人团队的高度关注,大家都开始拆解研究谷歌RT系列成果,思考大模型究竟能为机器人带来怎样的泛化能力。

  也是在这时,深度参与了RT系列模型研发的谷歌机器人科学家Karol Hausman从谷歌拉出一支团队,声称要为全球机器人造一个通用大脑。

  Hausman为从谷歌“拉出”的这支团队,起了一个很接地气的名字——Physical Intelligence,直译过来是「物理智能」。

  π0不是一款机器人,而是PI团队花费八个月时间造出的一个通用机器人基础模型,PI团队希望,这个模型可以让人们像使用ChatGPT这样的chatbot一样,便捷地使用机器人。

  PI团队这里所说的机器人是任意品牌、任意形态的机器人,可以让这些机器人执行通用任务,也可以通过微调让这些机器人在专业场景执行专业任务。

  由于这一形态最适合机器人“练手”,适合训练机器人手眼脑协调执行任务的能力,也一直是机器人,尤其是人形机器人的最简配置。

  “让人工智能赢得一场国际象棋比赛或发现一种新药来说很简单,但让它执行叠衣服或清理桌面这样对人类来说再简单不过的任务,却很困难。”

  为了构建能够执行类人任务的人工智能系统,在π0研发的这八个月里,PI团队最主要的工作就是采集数据,并通过大量数据来对这一模型进行高强度的训练。

  据官方透露,π0的训练数据主要来源于目前行业中的开源数据集,以及他们自己通过8台机器人执行多样化任务积累下来的数据。

  第一,从OpenAI的GPT-4V、谷歌的Gemini这样的预训练视觉语言模型(VLM)中继承语义知识和视觉理解能力,PI团队基于此获得的30亿参数的VLM进行再调整,以适应机器人的实时灵活控制;

  第二上谷歌都要翻墙吗,基于PI团队自研的流匹配(flow matching)算法,为VLM模型提供连续动作输出,以使其可以实现50次/s的频率输出运动控制指令;

  第三,基于开源的机器人数据集和基于基于互联网数据训练的VLM,PI团队形成了自己的视觉-语言-动作流匹配模型,并通过自采集的高质量机器人数据对这一模型进行后续训练;

  相较于年初在学术界闹得沸沸扬扬的斯坦福团队遥操作的Mobile ALOHA而言,π0真正实现了完全自主执行任务。

  PI团队就单一指令简单任务、复合指令复杂任务,以及叠衬衫、杂物装袋、从烤面包机中拿出吐司几个任务,对π0、π0-small(未使用VLM预训练的470M参数模型)与OpenVLA、Octo进行了对比,得出的结论是,π0实现了全面碾压。

  正因如此,PI团队在美国大受追捧,截止目前已经先后拿到了7000万美元、4亿美元两轮融资,包括红杉资本、Khosla Ventures、Thrive Capital、Lux Capital等知名投资机构都挤进了这一项目。

  大模型让全球看到了一条通向通用人工智能的路,这不仅让全球科技巨头为之骚动,也让一大批创业团队涌入了这条赛道。

  马斯克曾为还未面世的GPT-5的训练做过一个估算,他认为,OpenAI训练GPT-5大概需要3-5万张H100,仅仅是买卡,就需要6-10亿美元。

  另一个来自于市场研究机构CB Insights的统计数据显示,2023年,全球生成式AI新创企业一共融到了204亿美元,即便是国内,人工智能领域融资就有232笔,融资总额达到了20亿美元。

  面对这样一个烧钱的大家伙,只进不出是肯定不行的,毕竟投资人的钱也不是白拿的,他们更在乎实际的经济价值和应用效果。

  AI PC、AI手机,尤其是AI机器人不断涌向,就连不关注商业化的波士顿动力创始人Marc Raibert也主导成立了波士顿动力人工智能研究院。

  而波士顿动力转向电驱后的Atlas,也在近日放出了在工业场景全自动执行搬运任务的Demo视频——告诉Atlas搬运位置,它就可以将零件自动搬运到相应位置。

  人形机器人要进入产业,目前一个关键技术瓶颈是任务执行的泛化性,这就对人工智能算法提出了很高的要求。

  他现在的方法是,通过预训练模型用来教会这个大脑有关物理世界的规律和知识,通过微调让这个大脑能够很好地执行特定任务。

  不过,经由这一模式研发的π0,实则仍然算不上机器人通用大脑,要想造出机器人通用大脑,整个模型的微调过程就需要由机器人自动完成。

  在PI官方博客中,Hausman的团队也坦然承认,“通用机器人策略依然处于起步阶段,我们还有很长的路要走。”

  强大的通用策略,继承了预训练大模型的语义理解能力,整合了来自不同任务和机器人平台的数据,实现了前所未有的灵活性。

  作为脱胎于谷歌RT系列项目的明星团队,又是只做通用软件的中立团队,据悉,PI团队已经和多家机器人公司和实验室展开合作:

  另一方面,引入合作伙伴的数据,将这些数据整合到PI团队的预训练模型中,提升模型的泛化性和兼容性。

  作为被黄仁勋、马斯克、奥特曼等科技巨头掌舵者看重的未来产业,也是具身智能最重要的形态,人形机器人由大脑、小脑、肢体三大核心部分组成。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

相关文章

谷歌访问助手翻墙插件

  大语言模型(LLM)通常经过训练,能够回答用户问题或遵循指令,与人类专家的回答方式类似。然而,在标准对齐框架中,它们缺乏在回答前进行明确思考的基本能力。思考能力对于需要推理和规划的复杂...

谷歌地图 翻墙使用教程

  采用纯解码器(decoder-only)架构的大语言模型(LLM)具有出色的上下文学习(ICL)能力。这一特性使它们能够利用输入上下文中提供的示例,有效地处理熟悉和新颖的任务。...

翻墙上谷歌学术

  一开始,AlphaXiv论坛会确认你的研究领域和方向。这里延续了arXiv的风格,arXiv作为最大的开放获取预印本存储库,拥有近240万篇学术论文,涵盖人工智能、医学、计算机科学、物...

翻墙下载谷歌离线地图

  【新智元导读】近日,一篇调查文章指责苹果、Anthropic等科技巨头未经许可使用YouTube视频训练AI模型。但训练数据的使用边界究竟在哪里?创作者、大公司和开发者正在陷入知识产权...