新疆翻墙谷歌会怎么样

ipvvvv1个月前翻墙12

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

  智东西6月18日消息,今日凌晨,谷歌DeepMind发布了一个名为V2A(Video-to-Audio)的系统,能根据画面内容或者手动输入的提示词直接为视频配音。它还可以为任何视频输入生成无限数量的音轨。

  谷歌DeepMindV2A系统最大的特点就是无需人工输入提示词也可以为视频配音。DeepMind在博客中称V2A能依靠自己的视觉能力理解视频中的像素。也就是说,V2A能看懂画面,知道画面里正在发生什么,应该出现什么声音。

  当然,V2A也能够根据提示词生成所需的音频。使用者可以通过输入“正面提示词”来引导模型输出所需的声音,或输入“负面提示词”来引导其避免出现不需要的声音,这给了使用者更大的控制权。

  与其它AI音频生成工具不同,V2A在生成音频后无需人工对齐音频视频,而是可以直接自动将音频与画面对齐。

  但谷歌DeepMind也承认,这一系统目前仍然存在很大的局限性。如果输入的视频质量不高,那么输出的音频质量也会出现明显的下降。他们认为需要进一步提升系统安全性并补齐当前V2A在口型同步等方面的短板,才能正式向公众发布这一系统。

  谷歌发布V2A没过几小时,语音克隆创企ElevenLabs就发布了文字到音频模型的API,并基于这一API做了一个Demo应用让公众免费使用。

  与V2A不同的是,该应用并不能直接实现画面到音频的转换,而是利用了GPT-4o将视频截图转换为文字提示词,之后再输入文字转在几秒内生成多条与画面内容匹配的音频。这是基于该公司5月底发布的文字到音频模型打造的。

  虽然目前Sora、Pika、可灵以及近期的Dream Machine和Runway Gen-3 Alpha等一系列视频生成模型已经能输出逼真的视频画面,但它们生成的视频都是没有声音的。

  AI工具也可以直接生成质量尚可的音频。AI创企Stability AI发布的Stable Audio Open模型可以输出长达47秒的乐器演奏片段,语音克隆初创公司ElevenLabs发布的音频生成工具可以根据用户输入的提示词生成音频。然而,目前没有工具可以全自动将视频与音频相结合,为AI生成的视频配音将是让AI视频变得更为真实的重要一步。

  谷歌DeepMind推出V2A系统就是为了解决这一问题。谷歌DeepMind的博客中写道,V2A可与谷歌自家的Veo等视频生成模型配合使用,直接生成有声音的AI视频,V2A也可用于历史档案画面配音、无声影片配音等领域。

  在下方的视频中,V2A展现出了对画面和提示词的超强理解能力。配乐营造出了提示词中紧张的恐怖片般的氛围,且音频与视频几乎完全同步。脚步声基本符合人物走动的节奏,随着画面的切换,脚步声也瞬间消失了。

  谷歌DeepMind发布的Demo视频中也出现了不少破绽。下方的视频是一位鼓手在演奏架子鼓。而V2A生成的第一秒音频还相对符合画面中的演奏节奏和所击打的鼓,然而后面的音频却出现了不属于这一画面的声音。画面中鼓手一直演奏的是架子鼓中的军鼓,然而音频中却出现了击打架子鼓其它部分(嗵鼓)的声音。这显示出V2A对复杂画面的理解尚存在缺陷。

  V2A还有一个特点就是给了创作者很大的自由。它可以为任何视频输入生成无限数量的音轨,还可以给模型定义“正面提示”以引导模型输出所需的声音,或定义“负面提示”以引导其避免出现不需要的声音。

  这种灵活性使用户可以更好地控制V2A的音频输出,让用户可以可以快速尝试不同的音频输出并选择最佳匹配。

  上方2个视频是V2A根据同一段视频生成的不同音频效果。只需简单调整提示词,V2A就能迅速给创作者提供风格迥异的音频。

  谷歌DeepMind的研究人员称,他们一开始尝试了自回归和扩散这两种技术路径,发现基于扩散的音频生成方法为同步视频和音频信息提供了最线A系统首先会将视频输入编码为压缩表征,然后扩散模型迭代地从随机噪声中提炼音频。该过程由视觉输入和自然语言提示引导,以生成高度符合提示词的音频。最后,音频输出被解码,转换为音频波形并与视频数据组合。

  通过使用视频、音频和附加注释进行训练,V2A系统学会了将特定的音频事件与各种视觉场景相关联,同时还能理解提示词中提供的信息。

  博客中写道,V2A系统可以理解原始像素,将文本提示变为可选项。这意味着V2A可以直接看懂视频画面并据此生成音频。这一系统也不需要人工将生成的声音与视频对齐,创作者不需要经历繁琐的调整过程。

  尽管目前这一系统已经初具成效,但DeepMind的研究人员认为目前这一系统仍然存在缺陷。它的音频输出质量严重依赖于视频输入的质量,视频中的伪影或失真会导致音频质量的严重下滑。

  此外新疆翻墙谷歌会怎么样,研究人员还在不断改进系统的口型同步能力,目前V2A在这方面表现不佳。在下方的视频中,虽然V2A只生成了一位小女孩的说话声,但是画面中所有人物的口型都在变化,并且与说话内容并不一致。

  虽然V2A可以按照输入文本生成人物对话的音频,并基本与画面中角色的口型同步。但口型同步的效果与视频生成模型相关,如果视频生成模型没有对口型的能力,口型同步的效果便会大打折扣。

  5月31日,同样在AI声音生成赛道上的ElevenLabs发布了他们最新的AI音频模型,可以通过文本提示生成音效、乐器演奏片段和各种角色声音。

  在ElevenLabs发布的宣传片中,他们的AI音频模型展现出了不俗的能力。它能一次生成多段音效供创作人员选择,在口型同步上表现也不错。ElevenLabs认为这一模型在游戏行业和影视行业中有较大的应用前景。

  就在谷歌DeepMind发布V2A系统后不久,ElevenLabs就上线了他们的文本到声音效果API,并基于API做了一个开源的视频到声音效果的应用。智东西第一时间测试了这一应用的生成效果,我们将谷歌Demo中的视频消音后输入了ElevenLabs的开源应用,让其生成音频。

  就这一视频而言,ElevenLabs的应用要逊色于谷歌V2A系统。视频前半部分的脚步声频率基本与画面相符,但在切换镜头后音频就与画面不匹配了。此外,由于不支持人工提示词输入,视频没有配上适合的背景音乐。

  ElevenLabs的研究人员称,他们的视频到声音应用在不到一天的时间内开发出来了。该应用自动将视频按照每秒截取四帧的频率截图,并发送给GPT-4o模型,将画面内容转为文字提示词。提示词将输入到他们的文字到音频模型中,模型会生成符合画面内容的音频。

  谷歌DeepMind目前并不打算向公众开放V2A系统。他们目前在与创作者进行沟通,收集创作者的看法与建议然后进一步优化V2A系统。

  谷歌DeepMind强调,他们特别将SynthID工具包(谷歌标记AIGC的特殊水印)纳入到V2A研究中,为所有AI生成内容添加水印,防止滥用该技术的可能性。

  ElevenLabs的音频模型和谷歌DeepMind的V2A系统的相继发布,或将给内容创作的生态带来巨大的改变。而正如之前所有AI模型那样,音频生成模型也面临着滥用的风险。这将是摆在开发者面前的重要挑战。

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

相关文章

翻墙了谷歌登不上

  Luma 的热乎劲儿还没过去,昨晚 Runway 就甩出一个王炸 ——Gen-3 Alpha。(查看详情请移步:)   更没想到的是,一觉醒来,Google Deep...

谷歌学术翻墙后要收费吗

  2024年,Google正式向所有Android用户推出其最新的AI语音聊天机器人——Gemini Live。这个功能强大的语音AI工具不仅能够自动与用户对话,还允许用户在对话过程中进...

翻墙后怎么注册谷歌账户

  IT之家 8 月 14 日消息,谷歌今天发布新闻稿,针对 Pixel 9 Pro Fold 可折叠手机,发布了全新的 Live Transcribe 界面,通过双屏幕改善使用不同语言的...

怎么不翻墙上谷歌商店

  【新智元导读】谷歌版Her,抢先OpenAI登场了?谷歌语音模型Gemini Live,即将在全球30亿安卓和22亿iOS设备中上线。虽然现场演示依旧小翻车了一下,但谷歌下定决心不等了...