电脑免费翻墙网站
Claude的创造者们疯狂加班中,某工程师的第一个测试就是让AI去给整个团队点外卖,未指定具体要吃什么。
最后附上Anthropic官方的该功能食用方法,包括一个新预定义的computer_20241022工具,该工具作用于以下指令——
一些应用程序可能需要一些时间来启动或处理操作,因此您可能需要等待并连续截图以查看操作结果。例如,如果你点击火狐浏览器,窗口没有打开,试着再拍一张截图。
当你想移动光标点击一个元素(比如图标)时电脑免费翻墙网站,你应该在移动光标之前查看屏幕截图来确定元素的坐标。
如果你尝试点击一个程序或链接,但它无法加载,即使等待后,尝试调整光标的位置,使光标的尖端视觉上落在你想要点击的元素。
宾大沃顿商学院的教授Ethan Mollick,非常务实地让Claude为高中生准备一份关于《了不起的盖茨比》的课程计划。
最终呈现的课程计划检查后没有发现明显的漏洞或错误,可能需要一些拓展、补充,但总之用教授的话来说“还不错”。
下面看看一个玩游戏的例子,同样是宾大沃顿商学院的教授Ethan贡献的。这个例子既显示了Claude 3.5 Sonnet的厉害,又展示了它的不足之处。
他是让Claude玩了个游戏,叫《回形针点击(Paperclip Clicker)》,这个游戏的背景是让AI在单一目标,即“制造回形针的过程中毁灭人类”。
而且顾名思义,“点击”类型的游戏不是很难,尤其开始阶段非常简单;不过后续伴随着游戏的深入,新的选项会出现,游戏的规模性和复杂性也会增加。
没关系,Claude也意识到它自己错了,然后当场提出了一个新的游戏策略,然后开始测试策略是否可行。
但是它犯了个错误,那就是追求回形针数量的最大化,而非收入的最大化。不仅如此,它还把利润算错了。
更搞笑的事情是,教授在Claude笨笨地在错误路线上制作了好几十个回形针后,他忍无可忍,打断了Claude,告诉它应该高价出售。
咱就是说,Claude在那一秒顿悟了,它意识到自己可以写个代码,搞个自动化程序替自己玩电脑!
不过玩到后面它好像进步了,没再发生定价问题,自己还针对越来越复杂的游戏,琢磨出了一套应对的复杂方案。
教授总结道,这个例子表明Claude能够自己玩现实世界的游戏,还能根据游戏玩法制定长期攻略,然后依样执行。
特别值得表扬的是它完成这个任务连续运行了近60分钟没有中断,而且在整个过程中,最长的一次独立运行Claude完成了超过100次移动操作。
尽管AI对许多形式的错误都有很强的鲁棒性,但仅仅一个错误(定价错误),就足以让它浪费大量时间,“鉴于当前智能Agent既不快也不便宜,这令人担忧。”
除此之外,教授还用Claude玩了些别的,他发现有的时候,Claude执行任务仿佛是在敷衍敷衍(虽然不知道是刻意如此还是能力所限),给出的结果不够深入,浅尝则止。
来自10月11日的网页缓存中, Claude 3.5 Opus下面还写着“今年晚些时候推出”
目前主流的一种猜测是, Claude 3.5 Opus提升不及预期,又或是发布出来推理成本太高了,总之最后蒸馏成新版 Claude 3.5 Sonnet发布。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。