手机翻墙上网
也就是说,根据新政策,你在网上公开发布的任何信息都有可能被谷歌抓取,包括但不限于你发的帖子、搜索的关键词以及看过的视频。
在这个节骨眼上整这么一出,大概率跟数据收费脱不了关系,谷歌再不薅这波免费的羊毛,之后很有可能就薅不到咯。
世超先给大家伙儿捋捋时间线 月的时候呢,马斯克带头打响了数据收费第一枪,宣称推特的 API 接口不再免费了。
上个月 Reddit 闹得沸沸扬扬的 “ 停电 ” 运动手机翻墙上网,就是为了抗议官方的 API 收费政策。
再到这段时间,推特又整了限流的幺蛾子,没有花钱认证的帐号每天就只能阅读 600 条贴文,目的呢也是为了防止机器人抓取用户数据。
现在能做大模型的,要不就是自己家有数据,像百度、阿里和腾讯;要不就是爬人家的数据,这里点名 OpenAI 。
但需要注意的是,公开的数据并不能等同于授权使用,而且还要看网站是不是有相关的条款对数据爬虫行为做出了限制。
即使 OpenAI 声称爬的是公开网站的数据,数据爬虫行为本身是否合法,还要看版权方是不是给了授权。
根据美国的版权法,如果 AI 模型训练所用的数据符合 “ 合理使用 ” 的范围,那就不会构成侵权。
可 AI 模型上亿万级别的数据使用量、已经商业化的 AI 软件,还能算作 “ 合理使用 ” 吗?
因为训练数据版权理不清, AI 生成的内容自然也会存在版权争议。前几天, Steam 还下架了一款使用了 AIGC 生成的游戏,理由就是版权有问题。
因为训练数据是人家的,美国版权局认定 AI 生成的作品不受版权法保护,甚至还可能侵犯著作权。
当年,互联网就是带着开放共享的基因出生的,像什么维基百科、推特,之前常年免费提供 API 接口,开发者调用数据很方便。
最主要的是,可能很多现在免费能看到的网站之后就要花钱才能看了,这才是对咱们这种普通用户的真实暴击。
厘清数据版权,是 AI 要发展始终绕不过去的一道坎儿,而现在,似乎也同样关乎着互联网的未来走向。