iphone 不翻墙上google
智东西5月21日报道,今日凌晨,在一年一度的谷歌I/O开发者大会上,谷歌的AI大戏连番上演!
时长不到2小时的主题演讲上,谷歌CEO桑达尔·皮查伊携一众谷歌高管总共提到95次“Gemini”、92次“AI”。
模型升级方面:Gemini 2.5 Pro新支持原生音频输出、Project Mariner的计算机使用功能、深度思考、高安全防护;视频模型Veo 2新增原生音频生成功能、Gemini 2.5 Flash在推理、编程和长上下文等关键指标上升级。全新发布模型包括:扩散语言模型Gemini Diffusion、视频生成模型Veo 3、图像生成模型Imagen 4。
这都指向一个目标:构建通用AI助手。谷歌DeepMind创始人兼CEO戴密斯·哈萨比斯(Demis Hassabis)称,他们将Gemini打造成一个世界模型,是开发一种新型、更通用、更有用AI助手的关键一步。
谷歌展示了其通用AI助手的最新研究原型。在自行车维修场景中,Gemini可以帮助用户查询维修手册、滚动到特定页面、搜索视频教程、主动提供实用信息,还可以拨打电话,查询零件库存情况,并帮助用户下单。
其余更新包括颠覆用户搜索体验的AI Mode:根据用户需求动态调整包含图表、店铺列表等的答案生成界面,在购物场景,AI Mode可根据用户购买意图定制购物界面,提供虚拟试穿、追踪用户预期价位、代理结账功能,其还集成了视觉搜索,用户可以通过手机摄像头实时搜索提问。AI Mode现已面向所有美国用户推出。
同时,谷歌此前三大研究项目获得重大进展:Project Starline引入全新3D视频通讯体验、Project Astra能利用Gemini和摄像头来解决问题、Project Marina支持多任务处理。
翻译能力是这款眼镜的亮点之一,不过测试时,可以明显感觉到工作人员减慢了语速,谷歌安卓XR智能眼镜仅正确翻译了对话中的前半部分,之后出现了无法识别的问题。
皮查伊透露,Gemini应用目前已经拥有超过4亿月活用户,超过700万名开发者通过Gemini API进行开发。
Gemini时代,谷歌的模型和产品发布速度都比以往更快。上届I/O大会至今,谷歌已经宣布10余款模型重大突破、20余款重大AI产品。
自第一代Gemini模型发布以来,Gemini模型的Elo分数已提升300多分。编程方面,Gemini 2.5 Pro成为编程平台Cursor上年度增长最快的模型,每分钟产出数十万行被采纳的代码。
在LMArena排行榜中,Gemini系列模型包揽了每秒生成输出token数最高的前三名,并且模型价格也在下降。
全栈基础设施方面,谷歌第七代TPU Ironwood是首款专为大规模AI思考和推理工作负载而设计的TPU,其性能是上一代的10倍,每个Pod的计算能力达到42.5 exaFLOPS。
去年同期谷歌每月通过产品和API处理的token数量为9.7万亿,目前其每月处理的token数达到480万亿,一年内增长了约50倍;
超过700万名开发者通过Gemini API进行开发,涵盖谷歌AI Studio和Vertex AI两大平台,同比增长超过五倍,同时Vertex AI平台上的Gemini使用率较去年增长40倍;
Gemini应用目前拥有超过4亿月活用户,在Gemini应用中使用2.5 Pro版本的用户使用量增长了45%;
在搜索方面,AI概览功能的每月用户超15亿。皮查伊认为AI Mode是搜索领域的下一个重大进展,我们正处在AI平台转型的新阶段。
皮查伊还提到,Gemini已经通关精灵宝可梦,集齐8枚徽章获得冠军,“距离人工宝可梦智能更进一步”。
哈萨比斯提到,Gemini 2.5 Pro是谷歌迄今为止最智能的模型,也是全球最强大的基础模型。两周前,谷歌发布了Gemini 2.5 Pro的预览版,开发者们用它实现了诸多创意:比如将草图转化为交互应用、模拟完整3D城市等。
新版的Gemini 2.5 Pro在WebDev Arena编程排行榜登顶。谷歌还将他们去年发布的LearnLM(专为学习场景微调的模型)接入Gemini 2.5 Pro模型,这让后者在解题等学习场景的能力进一步提升。
今天谷歌推出了轻量级模型Gemini 2.5 Flash的升级版。这款模型在推理、编程和长上下文等关键指标上实现提升,在大模型竞技场的排名仅次于Gemini 2.5 Pro。升级版模型将于6月初全面开放,Pro版本随后跟进,目前开发者已经可以在AI Studio抢先体验。
Gemini还引入了更多的功能。增强版安全防护的可抵御间接提示注入攻击;思维摘要功能将模型思考过程可视化,便于调试;Gemini 2.5 Pro即将新增“思考预算”控件,开发者可控制模型思考的长度,从而平衡质量与成本。
Gemini 2.5 Pro和Gemini 2.5 Flash的文本转语音功能支持多角色对话,能实现语气微妙变化、切换耳语模式、跨24种语言切换。
谷歌Gemini产品负责人Tulsee Doshi展示了Gemini 2.5 Pro的编程能力。现场,Gemini 2.5 Pro仅参照一张草图就生成了完整的3D交互网页,用时37秒就在原网页代码上完成修改。
Gemini 2.5 Pro现已在多款AI IDE平台(如Cursor等)中可用。谷歌昨日开启公测的编程助手Jules也接入了Gemini 2.5 Pro,能独立处理GitHub代码库的复杂任务,将原本耗时数小时的工作缩短至分钟级。
在模型架构创新方面,谷歌将扩散模型技术应用于文本生成。全新的Gemini Diffusion实验模型(扩散语言模型)的生成速度比Gemini 2.5 Flash快5倍。这款模型不仅仅能按顺序从左到右生成内容,还可以生成过程中快速迭代解决方案,并在生成过程中进行错误纠正。
谷歌打造了Gemini 2.5的“深度思考(Deep Think)”模式,运用类AlphaGo的并行推理技术。这一模式已经在美国数学奥林匹克2025测试和Live Codebench编程测试取得不错的效果,但由于需要额外安全评估,谷歌将先向可信测试者开放API。
哈萨比斯称,谷歌未来的重点是将Gemini模型扩展为一个“世界模型”iphone 不翻墙上google。模型对物理世界的理解能力,不仅对视频、3D生成至关重要,也是机器人技术突破的关键。为此,谷歌还专门微调了Gemini Robotics模型,能让机器人学习抓取物体、遵循指令等任务,并能够即时适应新任务。
谷歌的终极愿景是将Gemini打造成真正的通用AI助手(Universal AI Assistant),具备个性化、主动性和强大能力。
多模态模型方面,谷歌发布了最新图像生成模型Imagen 4。Imagen 4可以逼真地刻画出复杂的织物、水滴和动物毛皮等物体。这款模型最高支持2K分辨率,图片纵横比和自由定制,其文字生成和排版能力也有明显提升,给海报制作、PPT制作等生产级应用提供了更好的支持。
谷歌为Veo打造了配套的AI电影制作工具Flow,这一工具集成了Veo、Imagen和Gemini三款模型,可用于电影片段、场景和故事的创作。
在大量AI生成内容出现之后,此类内容的识别也成为关键挑战。谷歌于2023年推出了SynthID水印,迄今为止已为100亿份AI生成的图像、视频、音频和文本内容添加水印。今天,谷歌进一步发布了SynthID检测器,这一验证门户能帮助人们更方便地识别AI生成内容。
Gemini将推出Canvas功能,支持互动性的用户协作。用户描述需求后,Canvas可自动生成可分享的交互式内容,其他用户也可以对这一内容进行修改。
谷歌副总裁、安卓XR主管沙赫拉姆·伊扎迪(Shahram Izadi)称,安卓平台现在正发生许多令人兴奋的变化。上周,谷歌已经发布了安卓16和Wear OS 6两大新一代操作系统,而今天发布的许多Gemini最新进展将很快登上安卓平台,不仅限于手机,还包括手表、汽车和智能电视。
而谷歌的安卓XR是Gemini时代的首个安卓平台,将支持从头显到智能眼镜等多种设备类型,满足不同使用场景的需求,如沉浸式观影、游戏和工作等。
谷歌认为,智能眼镜是AI的理想载体。现场,谷歌工作人员和NBA球星“字母哥”一同展示了谷歌眼镜原型机的使用体验。
这款眼镜还具备一定的上下文记忆能力。在演示人员登上台后,谷歌眼镜能回忆起刚才在后台看到的咖啡究竟是什么品牌的。
谷歌称,他们与三星的合作关系将会提升至新的高度,从头显拓展至智能眼镜领域,双方已经在合作开发软件和参考硬件平台。
继与三星合作的Project Moohan之后,谷歌的第二款安卓XR设备是与XREAL合作的Project Aura。这款智能眼镜使用了安卓XR的软件堆栈和高通骁龙XR芯片,配备光学透视(OST)和虚拟透视(VST)显示技术,拥有70度的视野,不过仍然采用了有线.
自去年在I/O大会上推出以来,谷歌搜索的AI Overviews月活用户已达15亿,在200多个国家和地区可用。
这一模式下,其会针对用户需求对答案进行整合并提供方便阅读的答案形式,如附带评分的饭店信息、包含地图概览的答案等,同时,用户还可以通过对话形式进行后续追问。这项功能今天开始在美国推出。
AI Mode背后的关键技术是“查询扇出(query fan-out)”,可跨子主题和多个数据源同时发出多个相关搜索,然后将这些结果汇总在一起,提供易于理解的响应。
在个性化搜索能力方面,AI Mode允许用户引入更多偏好信息,帮助用户预定座位、进行所在地活动推荐等。对于用户需要获得更为详尽答案的问题,AI Mode能代表用户发起数十次甚至数百次搜索,几分钟内生成一份专业级报告。
第一个项目是在Project Starline之上,谷歌推出一个以AI为核心的全新视频通话平台Google Beam,该平台采用新一代视频模型将2D视频流转换为3D体验,通过6台摄像机组成的阵列捕捉用户动作,借助AI将这些视频流进行合并,实时处理呈现用户影像,精度达毫米级,每秒60帧。谷歌与惠普合作的首批Google Beam设备将于今年晚些时候向其测试用户推出。
Project Astra还可用于视障人士的辅助。谷歌演示了Project Astra如何帮助一名盲人音乐家完成现场演出。
哈萨比斯提到,过去的十年中,谷歌为现代AI时代奠定了许多基础,从率先提出所有大语言模型赖以构建的Transformer架构,到开发AlphaGo和AlphaZero等可以学习和规划的智能体系统,并且已将这些技术应用于量子计算、数学、生命科学和算法发现领域的突破。
这也是其最新在年度开发者大会上宣布诸多更新的技术底座。谷歌在升级Gemini模型的同时,将更多的AI能力融入到搜索、Gmail和浏览器之中。同时,谷歌还预告了未来的重大举措,包括改进视频通话功能、打造更具感知力和对话能力的助手,以及合作开发智能眼镜。
这些都彰显出谷歌作为科技巨头雄厚的技术实力和广泛的应用市场,并且在I/O大会上,谷歌也提到将在基础研究上加倍投入,真正构建更个性化、更主动、更强大的AI。未来实现通用人工智能(AGI)的下一个突破性技术或许将会更快到来。
(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)
原标题:《谷歌I/O超全总结:AI搜索大变样,AR眼镜复活,大模型全家桶升级,史上最贵订阅费1800元》

