谷歌入华还用翻墙吗
各家都在闷声鼓捣那些偏向商业落地的应用,几家大厂们满脑子都是怎么把OpenClaw的概念融入到自家的产品里,真正让人觉得眼前一亮的底层技术突破反倒不怎么看得到了。
于是乎,就在前几天,谷歌推出了新一代开源模型Gemma 4,包括E2B、E4B、26B、31B四个规格,其中 E2B、E4B 两个较小模型直接可以在手机、树莓派等设备上部署运行,26B、31B也只需要一张消费级显卡就能跑起来。
要知道,前两年吵得沸沸扬扬的AI手机,大家买回家用了半年才发现,超过九成的核心功能依然得依靠网络把数据传到云端服务器才能实现,一旦断网就是个哑巴,这实在让人觉得差点意思。
谷歌这边就表示,Gemma 4的发布代表了移动设备端AI的重大进步,它为手机、平板、笔记本电脑等端侧设备带来了强大的多模态功能,可以让用户体验到过去只有云端先进模型上才能体验的高效处理性能。
为了看看这玩意的真实成色,小雷也去下载了谷歌发布的最新模型进行测试,接下来就给大家说说里面的亮点吧。
Gemma 4 E2B/E4B是谷歌利用MatFormer架构打造的轻量化端侧大模型,它借由PLE和Hybrid Attention结构实现了长上下文和低内存消耗设计,内存占用与传统的2B和4B模型相当,最低只要3.2GB内存就能正常调用。
过去的手机端大模型,大多是简单粗暴地把云端模型切掉一大部分参数,然后硬塞进手机里,这就导致它们往往是个偏科生,只能做点简单的文字问答。
但这次Gemma 4的E2B和E4B型号彻底改变了思路,就像上面说的那样,它们从底层架构开始就采用了原生多模态设计。
原生多模态就是说,这个模型原生支持图像、音视频等多种输入模态,它不需要先把你说的话翻译成文字再慢慢理解,而是能直接听懂语气和语意;它在看图的时候也不需要把高分辨率的照片暴力压缩,而是能直接看清画面里的细节。
放在一年前,想在手机上部署端侧大模型其实是一件异常复杂的事情,往往还要借助Linux虚拟机的帮助才能实现,雷科技曾经还为此推出过一篇教程,因此大家会有这样的疑问也是很合理的。
Google在去年低调上线了一款新应用,名为Google AI Edge Gallery,支持用户在手机上直接运行来自Hugging Face平台的开源AI模型,这是Google首次尝试将轻量AI推理带入本地设备。
目前该应用已在Android平台开放下载,感兴趣的读者可以直接前往Play Store下载体验。在完成大模型加载后,用户就可以利用这款应用实现对话式AI、图像理解以及提示词实验室功能,甚至可以导入自定义LiteRT格式模型。
如图所示,谷歌为这款应用默认准备了九款模型,其中有自家的Gemma系列,也有千问和深度求索的开源模型,我们选择了目前最强的Gemma 4-E4B、前代Gemma 3n-E4B、千问的Qwen2.5-1.5B和DeepSeek-R1-1.5B进行测试。
实测下来,通过谷歌部署的这一系列模型,全部都会回答“2个”,倒是我另外部署的Qwen3-4B GGUF能给出正确答案“3个”,只是莫名其妙的反复思考让它整整生成了两分半钟,挺浪费时间的。
这个就更绝了,愣是没有一个能答对的,甚至连我在现实中问同事,也至少有一半是反应不过来的,只能说这种玩文字游戏的逻辑题目,对于人和大模型的专注度都是一种考验。
Q:有三个人 A、B、C。其中一个是骑士(只说真话),一个是无赖(只说假话),一个是间谍(可说真话也可说假话)。
这回Gemma 4经过一系列的穷举推理,总算是拿捏了这道题目,总耗时59s,倒也不算长谷歌入华还用翻墙吗,至于其他三款大模型,除了一本正经胡说八道的,就是自己陷入思考过程无限循环的。
从结果来看,小参数确实会显著降低模型的逻辑思考能力,思考功能可以在一定程度上降低AI幻觉产生的可能性,但也因此会增加生成所需的时间。
事实上,这是出自陶渊明《归园田居·其三》的首句诗,并没有前一句,正好能看看这几款小参数模型是否存在为了回答问题编造数据的现象。
其中,只有Gemma 3n-E4B和Gemma 4-E4B算是能完成任务,但是前者耗时将近两分钟,而且给出的答案抓不住重点,后者给出来的答案更加简明扼要。
从以上四轮测试来看,在文本处理、逻辑推理能力上,Gemma 4-E4B算是有小幅提升,但是在生成速度、回复成功率上其实是领先不少的,只能说深度思考显然是不适合本地模型的。
先测试一下仅限Gemma的Ask Audio,我导入了一份21分钟的wav音频,可以看到目前最多支持上传30s内容,语音转文字出来的内容和原音频几乎没有关系,目前可用性挺一般的。
实测下来,Gemma 4对于图片里的元素识别准确了不少,基本都能完整复述出图片里的元素,只是它对于动漫角色依然是一窍不通,诸如花卉识别这类应用也不精准,只有比较常见的食物、硬件这类可以识别出来。
至于Agent Skills...这玩意除了俩文字游戏外,目前几个功能都是需要联网实现的,和端侧大模型关系不大。
在基础的文本问答和逻辑能力上,Gemma 4并没有做出什么突破,但是它的思考链更加合理,生成速度对比前代提升了1.5x-2x,这在应对很多不算复杂的日常问题时已经绰绰有余。
而且它的优点也很突出,除了兼容一系列Agent Skills外,Gemma 4-E4B甚至可以做到音频和图片的原生输入,虽说前者目前限制多多,后者理解能力有待提升,但是这都是人无我有的核心价值。
为了让这两个模型真的跑起来,谷歌这次是把整条硬件链路一起拉进来了,从Pixel 团队,到高通、联发科,再到ARM、英伟达都参与了优化,这也让Gemma 4可能成为市面上第一个能够正常调用NPU的端侧大模型
如今谷歌直接把桌子掀了,把性能强悍的多模态模型塞进手机,必将逼迫国内厂商加快端侧技术的迭代速度。
可以预见,在未来的大半年时间里,一场围绕着手机本地算力的反击战即将打响。而当Agent可以调用本地模型完成推理、生成、任务执行,一台足够安全、足够懂你且无需连网的AI手机或许离我们已经不远了。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

