翻墙注册谷歌账号教程
【新智元导读】昨天谷歌DeepMind首席科学家的推文,让不少人替谷歌扼腕叹息:明明o1的技术,谷歌已经连发多篇论文,最终为何还是被OpenAI截胡?大模型果然不存在护城河啊。
就在刚刚,Sam Altman自豪发文表示:虽然花了一些时间,但OpenAI已经实现了第三个目标!
八年后,OpenAI线模型为什么如此重要?用Fixie创始人、AI研究员Matt Welsh的话说,原因就在于,它将AI模型中的「思维链推理」能力带给了大众。
推理能力直接内置于模型中,无需借助额外工具就能达到类似效果。我预计这将大幅提高人们对AI模型能力的期望。
众网友由此猜测:o1可能并不是一个新模型,而是更小的模型与gpt协同工作,亦或只是提示工程。
如果公布完整的思维链,可能就会有人根据模型在思考时产生的推理痕迹进行训练,从而得到更好的开源模型。
o1之所以在性能上实现碾压式飞跃,就是因为它首次在LLM中实现了强化学习和CoT翻墙注册谷歌账号教程,让LLM真正学会了思考。
而早在今年1月,谷歌和斯坦福的研究者就在这篇ICLR 2024论文中提出,思维链赋能Transformer,能解决本质上的串行问题。
就在昨天,谷歌DeepMind首席科学家Denny Zhou发文表示:「LLM推理能力的极限是什么?天空才是极限」。
他cue到这篇论文,总结道:「我们已经用数学方法证明了,Transformer可以解决任何问题,只要允许它们根据需要生成任意数量的中间推理token。」
可见,谷歌在技术原理上早已达到很先进的程度,但并没有切实落地到产品上,因此才一再被OpenAI截胡。
结果显示,在这两种情况下,对测试时计算的不同扩展方法的有效性,很大程度上取决于提示词的难度。
基于此,团队提出了一种「计算最优」扩展策略——通过为每个提示词自适应地分配测试时计算,使测试时计算的扩展的效率提高4倍以上。
不难看出,Denny Zhou等人所提出的「中间推理token」,与o1的核心技术是何其相似。
传统的Transformer模型,只能解决AC0电路能解决的问题;但一旦加入CoT,Transformer几乎可以解决任何问题。
也就是说,可以用数学严格证明,CoT可以让Transformer解决几乎所有能用计算机解决的问题。
在模运算、置换群组合、迭代平方和电路值问题上,都可以证实:CoT赋予了Transformer模拟任意电路的能力,从而能够解决电路值问题这个P完全问题。
The Information总结道,OpenAI发布o1展示的方法就是——通过隐藏模型实际解决问题的方式。
从o1-preview博客文章中可以看出,模型的关键更新就是使用「内部思维链」,将问题分解成更简单的步骤,然后再解决。
o1模型展示出来的,是一个「模型生产的思维链摘要」,也就是说,在客户看到之前,o1的思维过程是被完全不同的模型重新编写的。
这也说明,如果不被过滤思维链,o1-preview的表现可能会更好。因为这样的话,用户就能根据模型的思考过程来完善他们的问题,获得更多信息。
现在,许多开发者表示,自己对o1隐藏的思维链感到很恼火,因为这可能会让他们为看不到的东西付费。
MIT科技评论则总结道:OpenAI的新模型o1之所以如此重要,正是因为首次它将AI模型中的思维链推理带给了大众。
这些LLM产生了能解释、分析和生成文字的聊天机器人或语音助手,但除了出现大量事实错误外,这些LLM还未能展示出解决药物发现、材料科学、编程或物理学等领域重要问题所需的技能。
可以说,o1的发布释放了这样一个信号:LLM将很快成为药物发现、材料科学、编程或物理学等领域人类研究者的得力助手。
大模型创业公司Fixie创始人、AI研究员Matt Welsh表示,这很重要,因为它将AI模型中的「思维链」推理带给了大众。
用他的话说就是:「推理能力直接内置于模型中,而不必使用单独的工具来实现类似的结果。我预计这将提高人们对AI模型能力的期望。」
比如,伦敦帝国理工学院数学和计算机科学副教授Yves-Alexandre de Montjoye就提醒我们,最好对OpenAI将其与「人类水平技能」的比较持保留态度。
如果它正确回答出了给定问题,就是因为它成功通过推理得出了答案吗?还是因为模型内置了足够的起始知识点,从而获得了帮助呢?
谷歌AI研究员François Chollet也表示:「o1在开放式推理上,仍然存在不足」。
通过API使用o1的开发者,需要支付比GPT-4o高三倍的费用(o1每100万输入token收费15美元,而GPT-4o仅需5美元)。
最终James ODonnell写道:在研究人员和实验室有机会、时间和预算来深入研究o1、找到其极限之前,我们还无法知晓它的突破。
最近The Information就发文一篇,总结了为什么谷歌Gemini为何会在广大开发者那里受冷遇。
不管是各种公开的基准测试,还是Lmsys竞技场,谷歌的Gemini系列一直都是不落下风,经常是和GPT、Claude并驾齐驱。
但奇怪的是,几乎没有第三方项目用到Gemini,这个名字除了出现在谷歌的产品中,其他场景下甚少见到。这背后是什么原因?
其中一位开发者Aidan McLaughlin是Topology的创始人,这家初创公司致力于开发软件以提升AI模型的推理能力。
「谷歌要求我设置云账户,还得弄一堆配置。更糟的是,谷歌系统的bug有时还逼我得倒回去重来。」
他还补充说,在AI领域,模型的能力是最重要的。如果这么麻烦的步骤能换来一个强得多的模型,那开发者们估计还是会趋之若鹜,爬也要爬过这些坎儿。
但实际情况显然不是这样的。除了一些极少数的特殊情况,谷歌的模型似乎只能排第三,跟在OpenAI和Anthropic的模型后面。
企业软件创业公司Retool在6月对750多名技术工作者进行了一次调查,发现仅有2.6%的受访者表示最常使用Gemini来构建AI应用程序,Claude的占比更是只有2.3%。
虽然Claude的份额不敌谷歌,但Retool表示,Claude的使用量自去年11月以来增长了四倍多。
从6月到8月,OpenAI的应用开发者页面获得了8280万次访问,而同期Google的页面的浏览量为840万。
上个月底,AI智能体初创Finetune的创始人Julian Saks询问了50名AI创业开发者,他们最常使用哪些对话式AI模型。
几乎所有人都表示,他们主要使用Anthropic或OpenAI的模型,没有人主要使用Gemini。
相比之下,谷歌花了将近一年的时间,加上一次重大重组,才在2023年底推出了能与GPT-4掰手腕的Gemini,并向开发者开放访问权限。
虽然OpenAI的领先优势赢得了开发者圈中广泛的知名度,但后起之秀Anthropic在今年也同样迎来了爆发性的增长。开发者们纷纷热情推广Claude「平替」GPT,尤其是在代码辅助方面。
去年12月,谷歌推出了AI Studio,旨在让开发者更容易使用Gemini;而 Vertex AI Studio则服务于大型企业的模型推广。
但这两种服务存在交叉,有时又相互矛盾,到底用哪个,就是很艰难的决定;而且提供的选项种类复杂、操作步骤多,让人摸不到头脑。
不仅如此,AI Studio还使用了与GPT和Claude不同的查询发送方法,但后两者却共享类似的格式,这就更难吸引开发者们转向Gemimi。
他详细描述了通过Vertex开始使用Gemini所需的繁琐步骤,引起了其他开发者的共鸣,很多人也纷纷加入吐槽大军。