google那个带翻墙
OpenAI甚至为了狙击Google,在人发布会开始几分钟后,发了一个Blog,就这么个破Blog,还让他们的AI草莓哥当谜语人预告了两天。
现在的OpenAI,真的跟狼来了一样,我对他已经没有任何期待和信任可言了。每次就差那两个脏话骂出来了!
目前它们已经支持200多个国家和地区的45种语言,它可以在数十个设备制造商的数百个手机型号上使用,全球数十亿台设备上得到支持。
作为多模态AI,图像拍摄识别似乎被卷成必须有的功能了。最能考验照片识别能力的,就是拍摄说明书、日程表这类信息密集的内容——既要识别图像,还得看得懂文本内容给出答案。
演示的小哥拍摄了一张纸质音乐会海报,上面巡演的日程安排。演示者让Gemini查看自己的计划,选择可以去看Sabrina Carpenter演出的时间。
Gemini前两次拍照都很不给面子地现场演示失败,隔着太平洋我都感觉现场尬住了,还是两次。。。= =
Gemini直接给出了很具体的日期:Sabrina会在2024年11月9日到达旧金山,并且这一天演示者没有其他安排,可以去看演出。
比如晚上观看油管上美食视频后,都不用你挨个识图,自动生成视频中出现的食物清单,并添加到用户的个人待尝试列表中。
你也可以要求gemini制作一个“适合在首尔散步的韩国流行音乐播放列表”,它能根据用户描述的场景、情绪或活动类型推荐合适的音乐。
Google推出了类似于GPT4o的可以随时打断的实时对话功能,他们称为Gemini Live。
演示的小姐姐跟Gemini Live聊了半天,音色效果不错,延迟也足够低,但是其实看着就是一个低延迟的TTS,而不是GPT4o那种原生的多模态大模型。
因为没有任何情绪理解和表达的演示,按照Google的尿性,真要是有他们一定会疯狂展示的,另外在一些长一点的回答上,还是能明显的感觉到延时。
目前得Gemini Advanced订阅用户才能用,一个月20美刀,立刻上线 是首款搭载多模态 Gemini Nano 的手机。
这是迄今为止在手机上发布的功能最强大的设备端 AI 模型,比之前在 Pixel 8 Pro 上用的 AI 强大了三倍。
现在,Pixel的“通话助手”变得更强大了,增加了“Call Notes”功能。在你打完电话后,它会为你提供一个完全私密的通话总结。这样即使你在通话时没有纸笔,也能轻松获取电话号码、时间、细节和其他你不想忘记的信息。
有个大家都熟悉的场景:你在手机上看到一些想记住的东西,也许你会在脑海中记下来,或者截图保存。但通常,你要么忘记了要记的东西,要么在需要的时候找不到。
比如,你可以在与Gemini对话时共享你的相机,这样你可以直接展示自己在微积分作业中遇到的问题,或者寻求下一步家具组装的帮助。
在AI方面,跟硬件的结合,还是蛮有意思的google那个带翻墙,Gemini Live至少不是期货,今天就可以用。