新疆翻墙谷歌会怎么样

ipvvvv1年前 (2024-11-18)翻墙139

　　智东西6月18日消息，今日凌晨，谷歌DeepMind发布了一个名为V2A（Video-to-Audio）的系统，能根据画面内容或者手动输入的提示词直接为视频配音。它还可以为任何视频输入生成无限数量的音轨。

　　谷歌DeepMindV2A系统最大的特点就是无需人工输入提示词也可以为视频配音。DeepMind在博客中称V2A能依靠自己的视觉能力理解视频中的像素。也就是说，V2A能看懂画面，知道画面里正在发生什么，应该出现什么声音。

　　当然，V2A也能够根据提示词生成所需的音频。使用者可以通过输入“正面提示词”来引导模型输出所需的声音，或输入“负面提示词”来引导其避免出现不需要的声音，这给了使用者更大的控制权。

　　与其它AI音频生成工具不同，V2A在生成音频后无需人工对齐音频视频，而是可以直接自动将音频与画面对齐。

　　但谷歌DeepMind也承认，这一系统目前仍然存在很大的局限性。如果输入的视频质量不高，那么输出的音频质量也会出现明显的下降。他们认为需要进一步提升系统安全性并补齐当前V2A在口型同步等方面的短板，才能正式向公众发布这一系统。

　　谷歌发布V2A没过几小时，语音克隆创企ElevenLabs就发布了文字到音频模型的API，并基于这一API做了一个Demo应用让公众免费使用。

　　与V2A不同的是，该应用并不能直接实现画面到音频的转换，而是利用了GPT-4o将视频截图转换为文字提示词，之后再输入文字转在几秒内生成多条与画面内容匹配的音频。这是基于该公司5月底发布的文字到音频模型打造的。

　　虽然目前Sora、Pika、可灵以及近期的Dream Machine和Runway Gen-3 Alpha等一系列视频生成模型已经能输出逼真的视频画面，但它们生成的视频都是没有声音的。

　　AI工具也可以直接生成质量尚可的音频。AI创企Stability AI发布的Stable Audio Open模型可以输出长达47秒的乐器演奏片段，语音克隆初创公司ElevenLabs发布的音频生成工具可以根据用户输入的提示词生成音频。然而，目前没有工具可以全自动将视频与音频相结合，为AI生成的视频配音将是让AI视频变得更为真实的重要一步。

　　谷歌DeepMind推出V2A系统就是为了解决这一问题。谷歌DeepMind的博客中写道，V2A可与谷歌自家的Veo等视频生成模型配合使用，直接生成有声音的AI视频，V2A也可用于历史档案画面配音、无声影片配音等领域。

　　在下方的视频中，V2A展现出了对画面和提示词的超强理解能力。配乐营造出了提示词中紧张的恐怖片般的氛围，且音频与视频几乎完全同步。脚步声基本符合人物走动的节奏，随着画面的切换，脚步声也瞬间消失了。

　　谷歌DeepMind发布的Demo视频中也出现了不少破绽。下方的视频是一位鼓手在演奏架子鼓。而V2A生成的第一秒音频还相对符合画面中的演奏节奏和所击打的鼓，然而后面的音频却出现了不属于这一画面的声音。画面中鼓手一直演奏的是架子鼓中的军鼓，然而音频中却出现了击打架子鼓其它部分（嗵鼓）的声音。这显示出V2A对复杂画面的理解尚存在缺陷。

　　V2A还有一个特点就是给了创作者很大的自由。它可以为任何视频输入生成无限数量的音轨，还可以给模型定义“正面提示”以引导模型输出所需的声音，或定义“负面提示”以引导其避免出现不需要的声音。

　　这种灵活性使用户可以更好地控制V2A的音频输出，让用户可以可以快速尝试不同的音频输出并选择最佳匹配。

　　上方2个视频是V2A根据同一段视频生成的不同音频效果。只需简单调整提示词，V2A就能迅速给创作者提供风格迥异的音频。

　　谷歌DeepMind的研究人员称，他们一开始尝试了自回归和扩散这两种技术路径，发现基于扩散的音频生成方法为同步视频和音频信息提供了最线A系统首先会将视频输入编码为压缩表征，然后扩散模型迭代地从随机噪声中提炼音频。该过程由视觉输入和自然语言提示引导，以生成高度符合提示词的音频。最后，音频输出被解码，转换为音频波形并与视频数据组合。

　　通过使用视频、音频和附加注释进行训练，V2A系统学会了将特定的音频事件与各种视觉场景相关联，同时还能理解提示词中提供的信息。

　　博客中写道，V2A系统可以理解原始像素，将文本提示变为可选项。这意味着V2A可以直接看懂视频画面并据此生成音频。这一系统也不需要人工将生成的声音与视频对齐，创作者不需要经历繁琐的调整过程。

　　尽管目前这一系统已经初具成效，但DeepMind的研究人员认为目前这一系统仍然存在缺陷。它的音频输出质量严重依赖于视频输入的质量，视频中的伪影或失真会导致音频质量的严重下滑。

　　此外新疆翻墙谷歌会怎么样，研究人员还在不断改进系统的口型同步能力，目前V2A在这方面表现不佳。在下方的视频中，虽然V2A只生成了一位小女孩的说话声，但是画面中所有人物的口型都在变化，并且与说话内容并不一致。

　　虽然V2A可以按照输入文本生成人物对话的音频，并基本与画面中角色的口型同步。但口型同步的效果与视频生成模型相关，如果视频生成模型没有对口型的能力，口型同步的效果便会大打折扣。

　　5月31日，同样在AI声音生成赛道上的ElevenLabs发布了他们最新的AI音频模型，可以通过文本提示生成音效、乐器演奏片段和各种角色声音。

　　在ElevenLabs发布的宣传片中，他们的AI音频模型展现出了不俗的能力。它能一次生成多段音效供创作人员选择，在口型同步上表现也不错。ElevenLabs认为这一模型在游戏行业和影视行业中有较大的应用前景。

　　就在谷歌DeepMind发布V2A系统后不久，ElevenLabs就上线了他们的文本到声音效果API，并基于API做了一个开源的视频到声音效果的应用。智东西第一时间测试了这一应用的生成效果，我们将谷歌Demo中的视频消音后输入了ElevenLabs的开源应用，让其生成音频。

　　就这一视频而言，ElevenLabs的应用要逊色于谷歌V2A系统。视频前半部分的脚步声频率基本与画面相符，但在切换镜头后音频就与画面不匹配了。此外，由于不支持人工提示词输入，视频没有配上适合的背景音乐。

　　ElevenLabs的研究人员称，他们的视频到声音应用在不到一天的时间内开发出来了。该应用自动将视频按照每秒截取四帧的频率截图，并发送给GPT-4o模型，将画面内容转为文字提示词。提示词将输入到他们的文字到音频模型中，模型会生成符合画面内容的音频。

　　谷歌DeepMind目前并不打算向公众开放V2A系统。他们目前在与创作者进行沟通，收集创作者的看法与建议然后进一步优化V2A系统。

　　谷歌DeepMind强调，他们特别将SynthID工具包（谷歌标记AIGC的特殊水印）纳入到V2A研究中，为所有AI生成内容添加水印，防止滥用该技术的可能性。

　　ElevenLabs的音频模型和谷歌DeepMind的V2A系统的相继发布，或将给内容创作的生态带来巨大的改变。而正如之前所有AI模型那样，音频生成模型也面临着滥用的风险。这将是摆在开发者面前的重要挑战。

标签: 谷歌语音输入不翻墙

返回列表

上一篇：谷歌需要翻墙吗什么意思

下一篇：中国电脑谷歌日历翻墙

为什么要翻墙

新疆翻墙谷歌会怎么样

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

相关文章

谷歌学术翻墙后要收费吗

怎么不翻墙上谷歌商店

翻墙后怎么注册谷歌账户

翻墙了谷歌登不上

Powered By Z-BlogPHP. Theme by TOYEAN.

为什么要翻墙

新疆翻墙谷歌会怎么样

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

相关文章

谷歌学术翻墙后要收费吗

怎么不翻墙上谷歌商店

翻墙后怎么注册谷歌账户

翻墙了谷歌登不上

Powered By Z-BlogPHP. Theme by TOYEAN.

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等