翻墙了谷歌登不上

ipvvvv8个月前 (11-18)翻墙73

　　Luma 的热乎劲儿还没过去，昨晚 Runway 就甩出一个王炸 ——Gen-3 Alpha。（查看详情请移步：）

　　更没想到的是，一觉醒来，Google DeepMind 也有了新消息，悄咪咪地发布了视频生成语音（V2A）技术的进展。

　　虽然这一功能还未向公众开放，不过从官方放出的视频 Demo 来看，效果那是相当丝滑。同时，Google DeepMind 强调，所有示例均由 V2A 技术和他们最先进的生成视频模型 Veo 联手打造。

　　其实，就在 Google DeepMind 官宣没多久，AI 音频领域的「扛把子」ElevenLabs 就横插一脚，开源了一个上传视频自动配音的项目，可以为视频生成合适的音效。

　　如今 AI 圈子的竞争已呈白热化阶段，大小厂的你追我赶将会创造更加公平的竞争环境，而一旦这些技术成熟，AI 视频领域将会有无限可能。

　　众所周知，视频生成模型正以惊人的速度发展。不过，无论是年初惊艳世人的 Sora，还是近期的可灵、Luma翻墙了谷歌登不上、Gen-3 Alpha，生成的全是「无声电影」，无一例外。

　　而 Google DeepMind 的视频生成音频 (V2A) 技术，使得同步的视听生成成为可能。它可以结合视频像素和自然语言文本提示，为屏幕上的动作生成丰富的配音。

　　从技术应用上来说，V2A 技术能够与 Veo 等视频生成模型结合，创造出具有戏剧性配乐、逼真音效或与视频角色以及风格相匹配的对话镜头。

　　V2A 技术能够为任何视频输入生成无限数量的音轨。用户可以选择定义「正向提示」来引导生成期望的声音，或者「负向提示」来避免不期望的声音。

　　研究团队尝试了自回归和扩散方法，以发现最可扩展的 AI 架构。扩散方法在音频生成上给出了最真实和引人入胜的结果，用于同步视频和音频信息。

　　V2A 系统首先将视频输入编码成压缩表示，然后扩散模型从随机噪声中迭代细化音频。这个过程由视觉输入和给定的自然语言提示指导，生成与提示紧密对齐的同步、逼真音频。最终，音频输出被解码成音频波形，并与视频数据结合。

　　为了生成更高质量的音频并引导模型生成特定声音，研究团队在训练过程中添加了更多信息，包括 AI 生成的注释，详细描述声音和对话文本。

　　通过在视频、音频和额外注释上的训练，该技术学会将特定的音频事件与各种视觉场景关联起来，同时响应注释或文本中提供的信息。

　　谷歌方面强调，他们的技术与现有的视频到音频解决方案都不同，因为它可以理解原始像素，并且添加文本提示是可选的。此外，该系统不需要手动对生成的声音与视频进行对齐，极大地简化了创作流程。

　　不过，谷歌的这一技术也并非完美，他们仍在努力解决一些 bug。例如，视频输入的质量直接影响音频输出的质量，视频中的伪影或失真可能导致音频质量下降。

　　V2A 技术尝试从输入文本中生成语音，并将其与角色的口型动作进行同步，但若视频模型未针对文本内容进行相应的调整，就可能导致口型与语音不同步。他们正改进这一技术，以提升唇形同步的自然度。

　　或许是由于深度伪造技术带来诸多社会问题，Google DeepMind 求生欲满满，一个劲承诺将负责任开发和部署 AI 技术，在向公众开放之前，V2A 技术将经过严格的安全评估和测试。

　　此外，他们还整合了 SynthID 工具包到 V2A 研究中，为所有 AI 生成的内容添加水印，以防止技术的滥用。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

标签: 谷歌语音输入不翻墙

返回列表

为什么要翻墙