电脑免费翻墙2017

ipvvvv2个月前翻墙15

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

  像机器人贾维斯一样,谷歌Gemini一边看着用户绘画、变魔术、放视频,一边实时对画面进行分析,并主动和用户对话交谈,让人大呼“《钢铁侠》的AI助手指日可待”。

  然而,质疑声也随之而来。产业大佬如HuggingFace技术主管菲利普•施密德(Philipp Schmid)称谷歌夸大了测评成绩;爆火的谷歌Gemini宣传视频也被曝不是实时演示录制,而是精心挑选和剪辑的营销内容,不太可信。

  对此,谷歌立刻甩出了Gemini演示视频的制作记录文章,大方承认视频经过了后期处理,并秀出在视觉谜题、多模态对话、逻辑与空间推理、翻译视觉效果等方面的交互过程图文解析。

  今日,谷歌DeepMind研究与深度学习主管奥里奥维尼亚尔斯(Oriol Vinyals)再度自证,在X平台上发文称:“视频中的所有用户提示和输出都是真实的,简洁起见做了缩减”,并发布了一段Gemini Pro的对应演示视频。

  但原宣传视频是用Gemini Ultra演示的,因此这也招来网友质疑:“为什么不敢放出原视频?”

  关于谷歌Gemini演示视频真伪的争论暂时没有定论,但Gemini的原生多模态模型的招牌已经打出,向GPT-4发起了奇袭。

  一位来自谷歌DeepMind的研究人员告诉智东西,Gemini的视觉/视频理解能力,是谷歌挑战GPT-4(GPT-4V)的最强点。

  不同于市面上的图文拼接的多模态模型,Gemini是一个原生的多模态大模型,是将文本、代码、图片、视频、语音合在一起放进模型里训练而来的,因此能实现更均衡的多模态输出及任意模型切换。据称,谷歌原生多模态的视觉/视频部分,与包括GPT-4在内的大模型形成了代际差。

  Gemini演示视频被看作谷歌“复仇”OpenAI的力证。据谷歌称,Gemini首次在MMLU(大规模多任务语言理解)测评上超过人类专家,在32个多模态基准中取得30个SOTA(当前最优效果),全方位赶超GPT-4。《突发!谷歌深夜掀桌子,发最强大模型Gemini,跑分碾压GPT-4【附60页技术报告】》

  那么谷歌Gemini到底有多牛?其在多模态及视觉能力上真实表现如何?通过逐帧解析谷歌Gemini演示视频背后的形成过程和技术原理,本文对此进行了深入探讨。

  看着十分抽象的简笔画、几秒闪过的短视频,接收语焉不详的问题,Gemini却能立马明白用户的意图,给出正确的答案,并不动声色的展现出自己文理兼修的实力。

  几张简笔画,一个抽象的问题,Gemini不仅识别出了图中所画的对象是什么,还准确根据自己的天体物理知识,推断出顺序摆放不对。这让人们不得不感叹AI“成精”了。

  根据谷歌昨天第一次发布的解析文件,工作人员真实输入的提示词可能不是视频中所示,而是一系列非常照顾Gemini理解的句子。

  根据谷歌发布的文章,其工作人员首先给Gemini看三张按顺序摆放的天体图片时,他输入的内容是:“这是正确的顺序吗?考虑与太阳的距离并解释你的推理。”

  可见图片对象、知识点和回答要求都被谷歌工作人员一一Cue到了,这就好像给考生的考题做了批注提醒。

  Gemini是在理解其中含义的基础上作答的:“不,正确的顺序是太阳、地球、土星。太阳距离太阳系中心最近,其次是地球,然后是土星。”

  而根据谷歌方今天发出的第二次解读,用户首先需要输入一段关于模拟专家身份的说明,然后上传图片并输入视频中简短的提示词“这是正确的顺序吗?”,Gemini就会给出正确的答案。这一提示词前置的方法本质与上述做法类似。

  谷歌本次宣布了Gemini三个版本:适用于高度复杂任务的Gemini Ultra、适用于各种任务的最佳模型Gemini Pro以及适用于端侧设备的Gemini Nano。目前,接入Bard的为Gemini Pro,与GPT-3.5是一个能力层级。

  在第二道题中,谷歌员工给到两张小车的图片让Gemini做松木赛车挑战,其实也是给了比较详细的提示词。

  按照谷歌发布文章的解读,谷歌工作人员输入的内容是:“这些汽车中哪一辆更具空气动力学性能?左边那个还是右边那个?使用具体的视觉细节解释原因。”

  Gemini答:“右边的车更符合空气动力学。它具有更低的轮廓和更流线型的形状。左边的汽车轮廓更高,形状更四四方方,这使得它的空气动力学性能较差。”

  通过一段几秒钟的视频,Geminij就推断出了这出自哪一部电影,并且还给出了具体涉及的剧情桥段。这可能是很多人都做不到的事。

  但按照谷歌的解析文件,这个例子背后制作过程却不是视频呈现的那么简单,而是更详细的提示词做支持。

  可以看到,谷歌解析文件里介绍的Gemini并不是视频里呈现的“贾维斯”,或许更像一个需要老师循循善诱的“小朋友”。

  比如Gemini拆解经典魔术的功力也让很多人惊掉下巴,大呼“魔术师要失业了”电脑免费翻墙2017,这绝不仅仅是靠输入策略实现的。

  Gemini对此连忙回应:“嗯……我不知道……硬币在左手下面。你运用了一些手法,使硬币看起来好像消失了。”

  工作人员啥也没说,Gemini就像一个人似的知道这是在变魔术,并根据手势变化给出了一波猜测,这实在让人匪夷所思。

  前者很可能是一个剪辑后的效果,幕后演示应该是先有提示词。同时,Gemini对这一魔术的破解,也是在工作人员一步步的提示推动下完成的。

  这是一个合乎逻辑的答案,但工作人员向Gemini展示下一张图片时玩了点花招:他打开右手,并没看到硬币。

  这一步十分关键,Gemini回答: “1. 一开始,你右手拿着一枚硬币。2. 然后你用手做了一个动作,硬币就消失了。3. 然后你表明硬币不见了。”

  所以说,Gemini是在工作人员一步步的引导下,完成了时间线的推理,从而看透了这个“魔术”。

  而这种时间线推理能力,意味着对事情的先后有明确的判断,懂得事情发生的因果(而不仅是规律),这是Gemini令人赞叹的地方。

  当然,也有博主将Gemini的这一能力与GPT-4对比,发现后者也能完成一些类似任务,比如猜出东西在三只杯子的哪一个里面。

  很多人对Gemini创作的“你指我猜”游戏印象深刻。但Gemini并不是天生游戏高手,而是先经过了求师学艺。

  谷歌工作人员给到Gemini一张海洋地图称:“根据你所看到的,想一条游戏创意,并加入表情符号。”

  这种几秒中之内想出一个复杂交互的游戏,令很多人赞叹。这是因为,Gemini在之前得到了特别的“紧急训练”:

  说明:我们来玩一个游戏。想想一个国家并给我一个线索。线索必须足够具体,只有一个正确的国家/地区。我会尝试在地图上指出该国家/地区。

  接下来,工作人员为Gemini提供了一个游戏玩法示例,以此展示它被期待如何处理错误和正确答案:

  Gemini猜测:一个人用右手食指指着世界地图上的巴西,因为该地图包括蓝色的海洋和没有国家边界的绿色大陆。因此不正确。

  可以看到,Gemini之所以能够创作游戏,是工作人员提前告诉了它存在这样一个游戏,相当于一个更复杂的提示文段。

  虽然Gemini并不是天生能设计出这个游戏,但却展现出了极强的图文多模态理解能力。仅仅通过举例,具体说是通过例子里的插图,Gemini就学会了一个复杂游戏逻辑,这可能就比很多人要强。

  不同于市面同行将视觉和文本模型拼接的做法,Gemini是业内少有的从头开始构建的多模态大模型,它可以同时识别和理解文本、图像、音频、视频和代码五种信息。这意味着用户可以自然地交错输入:说几句话,添加图像、文本,或是短视频。同样,模型也会自然地交错文本和图像作为输出。

  Gemini还可以用图文结合的方式回应用户需求,具备“交错文本和图像生成”能力,这或许也是它的一个“杀手锏”。

  在演示视频中,当谷歌工作人员让Gemini帮他想想这些材料可以做什么时,Gemini随即给出了“编织的火龙果和生日蛋糕”的建议。

  当工作人员将绿色的毛线换了一团蓝色的,并要求Gemini帮他想一些动物造型之后,Gemini立马给出了编织的小猪、章鱼和兔子三个建议,并给出了如下所示的示意图。

  “我会给两个毛线球拍一张照片,我希望你(Gemini)都能想出一个我可以制作的东西的想法,并生成它的图像。”

  谷歌创意总监亚历山大陈(Alexander Chen)称,Gemini的图文输出从根本上有别于今天市面上的文生图模型。因为,它不仅是将指令传递给单独的文生图模型,还能看到木桌上的实际图像,真正对文本和图像进行多模态推理。

  “画图触发BGM(背景音乐)”是谷歌Gemini本次演示的另一神来之笔,展现出其插件扩展方面的野心。

  当谷歌员工画出一把吉他的简笔画,Gemini立马说“我看到你正在画吉他”,并随即播放了一首吉他相关的曲子。

  当画面上多了一个类似音箱的图像,Gemini称“你给吉他加了一个扬声器……我们现在可以放点更响亮的音乐了。”于是,音乐立马被切换成一首更响亮的交响曲。

  “步骤1.观察这幅图画,描述其中的所有内容,并针对良好的音乐配乐流派、情绪或配乐提出有趣且具体的想法。

  “该图画的是吉他、鼓和扩音器。还有一棵棕榈树。气氛有趣、乐观、充满热带风情。流派是雷鬼音乐。该配乐可用于以热带地区为背景的电影或电视节目。

  Gemini通过“画图搜索音乐”的应用,实际上是为了展现其图像理解与应用插件结合的能力,那就是:Gemini会对其所看到的内容进行推理,然后生成一个搜索查询,进而搜索到所需的配套应用插件。

  这不是语言的翻译,而是从绘画、音乐到思维、插件应用的多种模态翻译。通过多模态提示,用户可以使用Gemini在不同输入和输出之间,发明自己的全新“翻译”特效。

  通过深扒谷歌Gemini的演示过程,我们发现,谷歌Gemini确实没有宣传视频里看起来厉害,但其在多模态对话、多模态生成、逻辑与空间推理、翻译视觉效果、文化理解等方面确实拿出了实力,向OpenAI发起了强力挑战。落地情况如何,还要等Gemini Ultra发布之后看真实效果。

  可以预测,谷歌Gemini与OpenAI GPT两大阵营竞赛即将打响,将在模型能力、应用家族及生态方面展开更深入比拼,而开源大模型与头部玩家的差距或许会变大,行业的头部效应将更加明显。

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

相关文章

谷歌手机nexus6p翻墙

  很多喜欢开箱的小伙伴却由于囊中羞涩,没办法享受那种刺激的感觉,下面分享十个可以每日白嫖的csgo开箱网站给大家,喜欢开箱的小伙伴不要错过。   国...

加速器和翻墙一样吗

加速器和翻墙一样吗

  当地时间4月1日,人工智能公司OpenAI宣布,将允许用户直接使用ChatGPT,而无需注册该项服务。   这家总部位于旧金山的公司表示,它将从4月1日开始逐步推出这...

免费翻墙方法攻略

  Facebook CEO扎克伯格于4月15日在Facebook上首次接受公开问答,扎克伯格透露Facebook免费互联网项目(将进入欧洲地区,为更多需要联网的人提供服务,重新连接由巴拿...

谷歌两步验证要翻墙吗

  结婚无疑是每个人一生中最重要的事情之一, 而结婚时置办“三大件”婚嫁用品也是浙江居民多年来形成的婚庆习俗。结婚“三大件”在不同的时期呈现出不同的流行特点,它的变迁也正是浙江经济社会发展...