苹果电脑shadowsock无法翻墙
继Claude发布Computer Use惊艳全场,就在刚刚,一个国产AI实现了像人一样使用手机!
而且还不像Claude需要打字提需求,现在手机的“手”是可以稍微去掉一些了,因为光靠嘴说就可以实现很多功能。
打开微信 → 搜索人 → 进入对话框 → 点击头像 → 点开朋友圈 → 找到一条内容 → 点赞 → 评论。
而中间几个关键且较为敏感的步骤,AI还会提醒是否还要“继续执行”,也是避免了一些乌龙的发生。
不卖关子,它正是智谱刚刚上新的功能——AutoGLM,主打一个让你的手机变成“自动驾驶”模式。
但说到最直观的感受,那就是火爆已久的生成式AI,已经不再停留在简单的生成阶段,而是真真儿地开始深入到硬件替人做执行和操作。
并且即便不是特别具体的要求,例如“最近三篇文章写了什么”这样比较泛的问题,AutoGLM也是可以hold住的。
打开美团APP → 搜索“瑞幸咖啡” → 选择最近的店铺 → 搜索“茉莉花香拿铁” → 点击“去结算”。
AutoGLM在了解意图之后,精准的在历史订单里的“近一个月”范围内找到了买过的眼镜,然后用户只需要操作一下支付即可。
而且除了刚才我们展示的功能之外,AutoGLM目前还支持大众点评、小红书、高德地图等APP哦~
不过有一说一,说到Auto这件事儿,智谱除了在手机上发力之外,早在电脑端的网页上就已经展现出来了。
确实,清言插件的确包含了这些现在AI插件似乎都应该具备的基本功能,但这仅仅是在清言的“通用模式”。
而这个“站内高级检索”若是放在知网这样的平台,那么对学生党和科研当来说,简直就是大写的方便:
点击这个模式之后,就会在网页各个细分条目后出现一个选择框,我们可以pick自己重点或更倾向的内容,然后再交给清言做处理:
从我们实测的所有案例中不难看出,智谱的AutoGLM,其实是把AI从“语言”阶段,拉高到了“执行”的层面。
AutoGLM不再仅仅是回答问题的AI,而是可以理解我们的指令,并模拟人类操作各种应用场景苹果电脑shadowsock无法翻墙。
正如我们展示的它能帮我们读网页、在电商平台购物、订酒店、点赞朋友圈、发微信等等,让AI变成助手这件事儿真正能付诸于行动。
与传统的只会简单API调用的AI不同,AutoGLM能理解屏幕上的信息,自动规划任务,并在执行过程中根据实际情况自我判断和调整。
用户只需通过简单的语言指令,就可以让它完成复杂的操作,这种能力背后的支撑来自于它强大的任务规划和执行机制。
智谱为此开发了一个名为WEBRL的在线强化学习系统,专门来解决训练任务不足、反馈信号稀少等问题。
毕竟在前两天Claude发布Computer Use的时候,很多人就表示AI竞赛已经来到了新赛季。
早在去年开始,大模型的圈子里就开始盛行大语言模型(LLM)的“进化体”——大型动作模型(LAM,Large Action Model)。
其核心也是希望能够摆脱目前大模型只能做生成任务的禁锢,能够借各种AI硬件作为载体,向执行层面去过渡。
无独有偶,在AI PC和AI手机圈子里,各大玩家也是把眼光都聚焦到了这种新范式,包括联想、荣耀等等。
不过仅仅是通过一个软件,更是只通过语音就能让AI在手机上实现像人一样全自动地操作,智谱可以说是在这个赛季玩家中的首个。
从早期的技术路线的发展来看,智谱面对OpenAI这个毋庸置疑的全球大模型头部选手,它的选择是做一个“追赶者”。
虽然从各种产品和模态上几乎可以不落的和OpenAI逐一连线,但其实智谱从起点来看,在最根儿上的技术本质却截然不同——
OpenAI的GPT系列则主要使用自回归模型,这种模型在生成文本时是单向的,即它只能基于之前的词来预测下一个词。
但这种单向性可能限制了模型在某些自然语言理解(NLU)任务中的表现,因为它无法充分捕捉上下文之间的依赖关系。
而智谱的GLM采用了自回归填空(autoregressive blank infilling)作为主要的预训练目标。这种方法允许模型在生成文本时同时考虑上下文信息,从而增强对语言结构的理解和生成能力。
例如众所周知的,OpenAI一直在坚持闭源的形式;而智谱则是闭源和开源两头抓,截至目前,其开源的模型如下表所示:
而不仅是这一次AutoGLM做到了抢先,智谱在八月也抢先OpenAI把类似4o的AI视频通话上线到了清言APP中;并且就在刚刚,其背后的GLM-4-Voice也正式开源。
由此,若是把上述的各个节点连起来,放到时间的X轴里,智谱的技术发展路线就一目了然了——正在一步一步迈近AGI:
(42 这个百分比灵感来自《银河系漫游指南》,the journey to AGI is now 42% completed,是小说里名叫“深思”(Deep Thought)的超级电脑,经过750万年的计算,给出的关于生命、宇宙以及任何事情的终极答案。)
大脑是一个非常复杂的系统,包括听觉、视觉、味觉、语言等多模态的感知与理解能力,有短期和长期记忆能力,深度思考和推理能力,以及情感和想象力。
正如下面这张图上显示的,有些能力今天的大模型已经解锁,比如文本,视觉,声音,比如一定的逻辑和使用工具的能力,有些模态的能力树还没有点亮,这些也是智谱未来会一直为之努力的方向。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。