黑莓护照翻墙教程

ipvvvv2个月前翻墙16

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

  【新智元导读】近日,一篇调查文章指责苹果、Anthropic等科技巨头未经许可使用YouTube视频训练AI模型。但训练数据的使用边界究竟在哪里?创作者、大公司和开发者正在陷入知识产权的罗生门……

  不仅仅是书籍、文章,甚至Instagram、X、Fackbook等各种社交平台上的内容也是来者不拒。

  为了规避潜在的法律纠纷,GPT、Gemini、Claude等商业模型在发布时往往选择对训练数据「三缄其口」,绝口不提及其来源、构成、使用许可等信息。

  近日,Anthropic、英伟达、苹果和Salesforce等公司再次身陷「数据门」,遭受到《连线》杂志和非营利新闻工作室ProofNews的猛烈攻击。

  两家媒体联合进行了一项调查,发现这些科技巨头们大量窃取了Youtube上的视频字幕用于训练,使用了共计超过4.8万个频道的17.4万个视频。

  ProofNews甚至制作了一个在线搜索工具,对这种行为进行持续的「公开处刑」。哪些创作者和视频被偷偷纳入数据库,一搜就知道。

  追根溯源,这些数据指向一个共同来源——Eleuther AI在2020年发布的数据集Pile。

  作为非营利组织,Eleuther AI建立Pile项目的初衷本是为了帮助小型组织和研究人员,促进AI研究的民主化,没想到最后也成为了大公司的囊中之物。

  一边是怨声载道的创作者,不满科技巨头又用数据、又抢饭碗的粗暴行径;另一边是宣扬着伟大AGI愿景的科技巨头。

  像EleutherAI这样辛辛苦苦爬数据还开源的NPO,怀抱着促进数据共享和技术公平的初衷,结果只落得被大公司利用、被创作者批判的境地。

  ProofNews和《连线》杂志将主要矛头对准了Eleuther AI在2020年发布的大型开源文本数据集Pile。

  文章愤怒地指出,Pile不仅包括YouTube字幕,还有来自欧洲议会、英语维基百科的语料,甚至还有安然(Enron)公司员工的大量电子邮件。

  这篇将近40页的论文不仅详细披露了共825GB文本数据的全部22个来源,还详细讨论了数据收集应当遵循的原则和广泛影响。

  从上图中可以看到,处于争议焦点的两个数据集——YoutubeSubtitles和Enron Emails被公开列了出来。

  首先,Enron Emails是美国联邦政府对该公司进行调查期间发布到网上的,已经作为公开数据集被使用多年,因此不存在我们想象中的隐私泄露问题。

  如表5所示,22个数据集中,仅有5个数据集没有得到ToS许可,但在NLP社区中,除了YoutubeSubtitles外的其他4个都已经被广泛传播并使用。

  对于YoutubeSubtitles本身,作者在抓取数据时使用了一个非官方API,并进行了大量数据处理工作。而且,这个AP工具在Pip、Conda、GitHub等平台上都很流行且能极易取得。

  「大量处理工作」似乎是暗示,这个数据集并非只包含视频创作者的心血,同时也凝结了论文作者的技术知识和劳动。

  考虑到所采用的处理方法,以及在Pile中识别特定文件的难度,我们认为,基于这些数据集目前的大范围公布,我们的使用并不会显著增加其危害。

  除了可用性讨论,作者也用了不少篇幅指出Pile中包含的有害内容,比如性别、种族、宗教等方面的偏见,以及亵渎或贬损类话语。

  除了建立数据集,论文也提出了将Pile作为基准测试的可能,并在对GPT-2和GPT-3的实验中,揭示了文本数据多样性对模型性能的影响。

  综合上述内容,站在AI技术人的角度,Eleuther AI的这篇论文不仅无过,而且可以称得上是非常负责且有贡献的研究。

  目前,Eleuther的官方网站已经将Pile数据集删除,但它凭借自己强大的历史影响,依旧在AI/ML社区广泛流传。

  据Hacker News网友估计,总数据量大概以每月200~300TB的速度稳定增长,可能已经累积到数十甚至数百PB。

  与Pile的命运不同,CC数据集安然存活至今。这些数据都托管在亚马逊云平台上,可以通过命令行直接下载。

  虽然在AI从业者的眼中,对Pile的指责有些过分苛责,但对于Youtube创作者而言,他们的愤怒和无奈也是真实的。

  ProofNews的调查发现,被Pile搜刮的创作者中不乏粉丝千万的YouTube网红,甚至一些官方账号也未能幸免。

  YouTube Subtitles数据集中,不仅包含可汗学院、哈佛、MIT等在线教育频道的视频转录字幕,还有《华尔街日报》、NPR、BBC等媒体的新闻视频,Stephen Colbert、Jimmy Kimmel等人主持的风靡全美的脱口秀节目也赫然在列。

  David Pakman是自己同名脱口秀节目的主持人,拥有200多万订阅者,浏览量超过20亿次。

  YouTube Subtitle数据集中,收录了该节目的近160个视频。但更让Pakman感到愤怒的是,他发现自己在TikTok上被「克隆」了。

  Pakman自己曾经说过的台词被一字不差地挪用,甚至连语调都一样,只不过换成了一个叫作Tucker Carlson的人。更让他震惊的是,评论区居然只有一个人发现了这一点。

  Pakman对此忿忿不平:「这是我的生计,我投入了时间、资源、金钱和员工的时间来制作这些内容」。

  Nebula是一家流媒体公司,其内容同样也被大公司从YouTube上盗用,用于训练人工智能。

  Wiskus表示,未经创作者同意就使用他们的作品是「不尊重」他们的行为,尤其是「生成式人工智能会尽可能多地取代艺术家」。

  一些全职YouTube用户会巡查他们的作品是否被未经授权使用,定期提交删除通知,不能心无旁骛地创作。

  通过YouTube可以快速学习人类说话的方式和习惯,这件事好理解,可关键是AI它什么都学啊!

  ProofNews发现,AI公司使用的视频中有146个来自Einstein Parrot,这个账号有15万粉丝,但博主的身份是一只非洲灰鹦鹉。

  鹦鹉模仿人类说话,然后AI再模仿鹦鹉模仿人类说话,然后人类每天跟AI聊天机器人说话,开始模仿AI……闭环了,朋友们。

  除了爬取的视频数据翻个底朝天,ProofNews还搬出了大公司使用Pile来训练人工智能的「铁证」——

  Anthropic也是如此,其发言人Jennifer Martinez在一份声明中证实,Claude确实使用了Pile数据集,但是关于侵权问题,她表示「我们必须请教Pile的作者」。

  Salesforce也确认,他们使用了Pile来构建用于「学术和研究目的」的人工智能模型,但公司人工智能研究副总裁Caiming Xiong在声明中强调,Pile是「公开」数据集,因此他们的使用无可指摘。

  今年4月,纽约时报就披露了OpenAI、谷歌、Meta等公司「收割」Youtube数据的情况。

  比如OpenAI创建了一款名为Whisper的语音识别工具,用于将Youtube视频转录为文本,用作训练数据。

  拥有Youtube平台的谷歌则可以理直气壮的表示,使用平台上的视频内容进行模型训练,这是是与创作者达成的条款中所允许的。

  硅谷风投公司Andreessen Horowitz的律师Sy Damle表示,「模型所需的数据如此庞大,即使是集体许可也确实行不通。」

  从小型组织、研究者,到Eleuther AI这样的NPO,再到科技巨头,「数据墙」的威胁近在眼前。要想跟上技术发展的节奏,就得竭尽所能利用一切数据来源。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场黑莓护照翻墙教程,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

相关文章

翻墙教程ss

  北京时间7月5日,苹果iPhone火热上市之后,吸引了业界和消费者的高度关注,但同时也引发了很多问题和激烈争论。《华尔街日报》专栏作家、著名科技博客沃尔特·莫斯博格(Walter Mo...

vps翻墙教程 版瓦工

vps翻墙教程 版瓦工

  苹果新款MacBook Pro发布后,因为触控条(Touch Bar)等创新受到了不少赞誉,但是同样因为苹果对于接口的吝啬也受到了不少用户的不满。...

mac safari翻墙教程

  【ChatGPT侵入苹果生态】火爆的ChatGPT已经展现出了领先时代的超强对话能力,但其互动界面仍然很“古典”:要体验这款生成式AI,你必须得打开浏览器输入网址登录。为了更加便捷地使...

whatsapp翻墙教程苹果6

  央视网消息:在苹果公司因新推出的地图服务不如人意而公开道歉后,刚刚上市的iPhone5手机再曝新问题。9月30号whatsapp翻墙教程苹果6,苹果公司已确认了这一问题的存在,并表示已...