不用翻墙上谷歌
除了显而易见的清晰度的提升——最高可达4K分辨率,它能够忠实地遵循简单和复杂的指令Prompt,并令人信服地模拟现实世界的物理以及各种视觉风格。
Prompt:特写镜头聚焦于一位女 DJ 的脸部,她美丽、浓密的黑色卷发勾勒出她的五官,她完全沉浸在音乐中。她闭上双眼,沉浸在节奏中,嘴角挂着一丝微笑。当她随着节拍点头和摇摆时,相机捕捉到了她头部的细微动作,她的身体本能地随着耳机中传出的音乐而做出反应,传到人群中。浅景深使背景变得模糊。她被鲜艳的霓虹色包围着。特写镜头强调了她迷人的气质以及音乐传递和超越的力量。
Prompt:镜头轻轻飘过一排排粉刷过的木制蜂箱,嗡嗡作响的蜜蜂在画面中进进出出。镜头落在站在画面中央的优雅农民身上,他洁白的养蜂服在金色的午后阳光下闪闪发光。他举起一罐蜂蜜,稍微倾斜以捕捉光线。在他身后,高大的向日葵在微风中有节奏地摇曳,花瓣在温暖的阳光下闪闪发光。镜头向上倾斜,露出一座复古的农舍,百叶窗是薄荷绿色的,摇曳的树木在墙上投下斑驳的阴影。用 35 毫米镜头在柯达 Portra 400 胶片上拍摄,金色的光线在农民的手套、果酱罐和蜂箱的风化木材上形成了丰富的纹理。
Prompt:太阳在一盘摆放整齐的早餐场景后缓缓升起。浓稠的金色枫糖浆以慢动作倒在松软的煎饼上,每一块煎饼都散发出柔软温暖的蒸汽云。特写镜头中,脆培根发出嘶嘶声,金色油脂的细小余烬在空中飞舞。咖啡以顺滑的旋转动作倒入水晶般透明的杯子中不用翻墙上谷歌,杯子里充满了深棕色的咖啡油层。场景结束时,相机俯冲到新鲜切好的橙子上,以令人惊叹的微距细节展示出它明亮多汁的果肉。
在Meta基准数据集 MovieGenBench上,人类参与者观看了1003个提示和响应的视频。
结果显示,跟市面上的主流视频生成模型相比,Veo2.0在整体偏好、Prompt指令准确遵循方面都表现最佳。
所有的比较都在720P分辨率下进行,Veo 采样时长为 8 秒,VideoGen 采样时长为 10 秒,其他型号采样时长为 5 秒。我们向评分者展示完整视频时长。
最后,他们表示,创建逼真、动态或复杂的视频,并在复杂场景或复杂运动的场景中保持完全一致性仍然是一项挑战。他们将继续开发和改进这些领域的性能。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。