谷歌翻墙的啊插件
今天是个好日子,至少谷歌这么想。几个小时前,该公司一键三连,一口气发布了两款视觉生成模型和一个工具:
Whisk:图生图工具,基于 Imagen 3 与 Gemini 的视觉理解和描述能力打造,能让用户更加方便地调整图像的场景、风格和物体。
其中,Veo 2 可说是直接引爆了整个社交网络。从早期用户发布的生成结果以及反馈来看,Veo 2 的生成质量明显超过了当前最佳的 Sora 等模型。一问世便是当世第一,似乎完全可以嚣张地喊一声:「还有谁?」
据介绍,Veo 2 可以创建 2 分钟以上长度的 4k 分辨率视频,也能理解提示词中的相机控制指令(比如广角镜头、POV 和无人机镜头),还能重建出符合真实世界的物理交互和人脸表情。
但也必须指出,目前这只是一个理论上的优势。在谷歌的实验性视频制作工具 VideoFX 中,Veo 2 目前只提供分辨率上限为 720p、长度为 8 秒的视频生成服务。(而目前的 Sora 可以制作高达 1080p、20 秒长的视频。)
尽管如此,Veo 2 现有的表现已经足够惊艳了其表现是如此之好,以至于一心推介自家 Grok 的马斯克也跑来赞美了一句。
为了佐证 Veo 2 确实优秀,谷歌还做了一个基于人类评估者的对比评估,简单来说就是让人类评估者看不同模型基于同一提示词生成的视频,然后判断自己更喜欢哪一个视频。他们对比了 Meta Movie Gen、可灵 1.5、Minimax 和 Sora Turbo。参与者观看了 1003 条提示词及相应视频。
令人意外的反倒是 Sora Turbo,其整体偏好和指令遵从表现是这几个模型里面最差的。Sora 要想「挽回面子」,可能还得看以后的满血版了。
话不多说,看看 Veo 2 的表现,我们或许就能理解为什么它在大众评审中能够压倒性地战胜之前的明星视频生成模型。
首先是对物理世界的理解力大大提高。如果不说是 AI 生成的,水下的波纹、光影,狗狗潜水时的动作协调性,都让人感觉如此真实,仿佛眼前的一切都是手持相机拍出来的,简直分不出来。
虽然仪表盘上的字不是完美,但我们可以看到,方向盘向左转的时候,整体画面也有一个左移,之后镜头向上从车窗摇到街道。
做到这种和主画面保持强一致性的摇镜头,其实非常难,每个细节都需要精确控制,确保镜头移动时画面中的物体位置和运动协调一致。
只有提升对真实世界物理运动规律的理解,才能做到这点,而 Veo 2 在这方面表现得尤为出色。
拿相似的 prompt 去测试其他模型,想实现这种自然又细腻的陶醉微表情,不失真、不鬼畜,试过才知道有多难。
还有,这画面简直就像从纪录片里截取的一幕。镜头里,一个养蜂的男人在蜂群中忙碌,Veo 2 在生成这一场景时,真的是突破了不少难关。
蜜蜂群体飞行不仅要表现出自然的协调感,还得和背景、光影无缝对接,避免出现卡顿或不自然的分布。但 Veo 2 把这些复杂的细节都处理得恰到好处,蜂群飞舞的每一刻都像是活生生的,「AI 味」已经很淡了。
DeepMind 表示,虽然视频模型经常出现「幻觉」,展示不必要的细节(例如多余的手指或额外的物体),但 Veo 2 产生这些细节的频率较低,模型的输出更加逼真。
当然,作为一款 SOTA 视频生成模型,光能生成拟真视频可不够。从官方以及网友分享的生成结果看,Veo 2 在生成幻想和动画内容方面的表现也同样非常出色谷歌翻墙的啊插件。
Veo 2 还让创作者可以轻松实现以前需要复杂后期才能完成的视觉效果。比如,它可以让这个运动的立方体稳定地切换材质,这个画面让人来做,看起来就很难,换 AI 来做,其实一点也没变简单。
Veo 2 不仅要解决实时追踪的问题,确保在物体快速移动时也能精准捕捉位置和形态,仅需 Prompt 就能置换材质。最厉害的是,它能保证在多次连续变换过程中画面始终流畅自然,不会出现抖动或错位。
OpenAI 连开直播 12 天,虽然赚足了流量,但从开播至今干货越来越少,可谓噱头大于实质。
按照目前双方技术迭代的速度和质量来看,或许就像网友们所预测的:「谷歌明年就会把 OpenAI 甩得连尾气都吃不上了」。