中国打不开谷歌翻墙
在人工智能(AI)领域中,如何为智能体创建高质量的训练和评估环境,一直是推动具身智能研究的重要课题。然而,目前大多数环境生成方法在多样性、交互性和可控性方面仍存在局限。
今日凌晨,Google Deepmind 推出了大型基础世界模型 Genie 2,其能够生成各种可控制动作、可玩的 3D 环境,可用于训练和评估具身智能体。基于单个提示图像,人类或 AI 智能体可以使用键盘和鼠标输入与之互动。
游戏在 AI 研究领域中扮演着重要角色。游戏的吸引力、独特的挑战组合和可量化的进展使其成为安全测试和推进 AI 能力的理想环境。
据悉,Genie 2 的推出将使未来的智能体能够在无限的新世界中进行训练和评估。这项研究也为开发交互原型体验的新型创意工作流程铺平了道路。
到目前为止,世界模型在很大程度上局限于建模狭窄的领域。Genie 1 提出了一种生成各种 2D 世界的方法。而今日凌晨推出的 Genie 2 则进一步在通用性上实现巨大飞跃,可以生成种类繁多的丰富 3D 世界。
Genie 2 是一个世界模型,这意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。它是在大规模视频数据集上进行训练的,并且与其他生成模型一样展示了各种大规模的新兴能力,例如对象交互、复杂的角色动画、物理以及建模并预测其他智能体行为的能力。
任何人都可以用文字描述他们想要的世界,选择他们最喜欢的想法,然后进入这个新创建的世界并与之互动(或让 AI 智能体在其中接受训练或评估)。在每个步骤中,人类或智能体提供键盘和鼠标操作,然后 Genie 2 模拟下一个观察结果。Genie 2 可以生成长达 1 分钟的一致世界,大多数示例持续 10-20 秒。
Genie 2 可以智能地响应键盘上的按键操作,识别角色并正确移动。例如,在下面的示例中模型必须弄清楚箭头键应该移动机器人而不是树木或云朵。
Genie 2 可以从同一起始帧生成不同的轨迹,这意味着可以为训练智能体模拟反事实体验。在每一行中,每个视频都从同一帧开始,但人类玩家采取的动作不同。
Genie 2 可轻松快速地制作各种交互体验的原型,使研究人员能够快速尝试新的环境来训练和测试 AI 具身智能体。
例如用 Imagen 3 生成不同图像提示 Genie 2,使其生成模拟纸飞机、龙、鹰、降落伞飞行之间的差异,并测试 Genie 对不同对象的动画效果如何。
得益于 Genie 2 的分布式泛化能力,概念艺术和绘图可以转化为完全交互式的环境。这使得艺术家和设计师能够快速制作原型,从而推动环境设计的创意过程,进一步加速研究。
借助 Genie 2 快速创建丰富多样的 AI 智能体训练环境,研究人员可以生成训练阶段未曾见过的评估任务。
以下展示了一个与游戏开发者合作开发的 SIMA 智能体示例,其在 Genie 2 基于单张图片提示生成的全新环境中,按指令完成任务。
SIMA 智能体旨在通过自然语言指令,在各种 3D 游戏世界中完成任务。在这一示例中,研究人员使用 Genie 2 生生成了包含两个门(一个蓝色,一个红色)的 3D 环境,并向 SIMA 智能体提供了指令,要求其打开每扇门。任务执行过程中,SIMA 通过键盘和鼠标控制虚拟角色,而 Genie 2 负责生成游戏画面。
也可以使用 SIMA 来帮助评估 Genie 2 的性能。例如通过指示 SIMA 环顾四周并探索房屋后面来测试 Genie 2 生成一致环境的能力。
虽然这项研究仍处于早期阶段中国打不开谷歌翻墙,智能体和环境生成能力都还有很大的改进空间,但 Google DeepMind 相信 Genie 2 是解决安全训练具体智能体的结构性问题的途径,同时实现迈向 AGI 所需的广度和通用性。
Genie 2 是一种自回归潜变量扩散模型,基于大规模视频数据集进行训练。视频经过自动编码器处理后,其潜在帧会被传递到一个大型 transformer 动态模型中进行处理,该模型采用与大语言模型相似的因果掩码进行训练。
在推理阶段,Genie 2 能够以自回归的方式进行采样,通过逐帧处理单个动作和过去的潜在帧来生成结果。同时,模型使用无分类器引导(Classifier-free guidance)的方法以提升动作的可控性。
据介绍,博客中的示例均由未经蒸馏的基础模型生成,以展示模型的潜力。经过蒸馏的版本则可以实现实时运行,但会以一定的输出质量降低为代价。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。