mac谷歌如何翻墙软件下载
从 1996 年起,它每隔一会就会抓取各种各样的网页、视频、图片等资料,保存在 “ 图书馆 ” 。
目前图书馆里存了 8660 亿个网页,1200 万个视频,490 万张图片和 110 万个软件程序。
点进网站,从 MJ 演唱会视频,到 1999 年测试版的 Google 搜索页面,再到你多年前送给凤姐的表白,都会重新进入你的世界。
不过,本文故事的主角不是这位,而是另一个档案馆 archive.today (今日档案 )。
archive.today 于 2012 年创办。从名字和功能上看,它类似于,可以备份网页。
robot.txt 是互联网里通行的一个君子协议。通过它,网站可以告诉搜索引擎,哪些东西它不能抓。百度里搜不到微信文章和淘宝商品,就是因为 robot.txt 。
目前,archive.today 已经存储了 5 亿个网页。虽然远不及,但这种大家主动寻求备份的网页,相对来说,它的意义和价值会更大点。
对于那些订阅费动辄几百美刀的西方媒体,很多第三方世界国家的读者不光无力支付,甚至压根没有匹配的支付方式。
但自从这个功能被发现后, archive.today 成为了大家心照不宣的 “ 白嫖 ” 工具。
虽然 archive.today 管理员曾说过,翻阅付费墙不是网站本意,只是技术问题上产生的一些 “ 意外 ” 。
我们知道,的背后是一家组织,总部在旧金山。它的年度预算有 1000 万美元,这些钱来自于它的合作赞助商和基金会。
尽管网页在移动端开始投放广告,并且管理员也开放了捐赠通道,但这些只够 14% ~ 20% 的成本。
也就是说这个网站的管理员,每天在面临版权诉讼的风险下,既要维护网站日常运营,还有隔三差五回答网友各种问题,最后每个月还得掏出几千美金的服务器租金,只为维持这么一个免费网站?
半年前一位悉尼的工程师 Jani 花了很大精力,想看看 archive.today 幕后神秘人到底是谁。
首先,网站能追溯到的第一个历史纪录是在 2012 年 5 月 16 日,网站一开始的域名叫 archive.is。
但大部分网站都已经停运了,唯一能打开的那个,只是一位纽约程序员的博客,早在 2011 年就已停更了。
和 Jani 一样,这些年也有其他网友探索过这位神秘人,但大多数人都停在了 “ Denis Petrov ” 的阶段。
这里我解释一下,诸如领英、 Instagram 这类应用,都要求登录账号后才能浏览详情。我猜测神秘人是用了自己账号 cookie ,来抓取领英的网页内容。
顺着线索,他找到了一个名为 Masha Rabinovich 的领英账号。账号显示,她有德国柏林某个大学的学士学位。
如果这个头像确实是本人,那说起来你可能不信,这个神秘人居然是一个留着波波头,有点娃娃脸的女生。
他们发现 Masha Rabinovich 曾多次参与了维基词条的编辑,最多的就是 “ 俄罗斯护照 ” ;
名字中的 “ Masha ” ( Маша )是玛丽亚的常见俄语说法, Rabinovich 是德国犹太人的姓氏;
另外 archive.today 用的分析引擎是俄国的,回答问题时会使用一些大写词汇,可能有德国背景。
至于“ Masha Rabinovich ”,还不一定是其真名。也许和 Denis Petrov 一样,只是神秘人在网络世界的马甲之一。
像后来也推出了手动备份的功能,但用户上传网页后,它还会检查一遍 robot.txt ,如果网站不同意被抓取, archive.org 还是会删除的。
因为 archive.today 从来不是权威的参考来源,而是历史的见证。它只是在告诉大家,在某个时刻,互联网上某一处存在过这样的页面。
虽然archive.today看似有点极端,但也不是所有网页都一视同仁。如果存档确认为恐怖分子的宣传网页、儿童色情等,收到举报后他也会删除。
当网友把他和放在一起夸奖时,他都会否定,说自己没有想保存整个互联网的目标,目前只有 archive.org 的百分之一,且运作方式不同mac谷歌如何翻墙软件下载。
因为神秘人回答网友问题的频率明显变低了,从两年前月均回答 40 个问题,到现在隔了好几个月才回答 2 个问题。
他也曾说网站经常被 DDOS ,时不时瘫痪。在互联网各个角落也有 “ 版权仇家 ” 在搜寻他的真实信息。至于诉讼,那也是迟早的事情。
互联网档案馆因为把 140 万实体书扫描出来,不限量租借给读者,被四家出版商联合起诉,还有六千名作家签了请愿书支持这场诉讼。
Sci-hub 因为把 8000 多万学术论文爬取下来,免费分享给所有学者,在多个国家被出版巨头起诉。创始人 Alexandra Elbakyan 为了躲避各国引渡风险,在世界各地躲藏。
90 年代,互联网上各种盗版电影和音乐横飞、破解和盗版软件横行。明明是赤裸裸的侵权,但却没有明确的法律能治一波乱象。
在这样的背景下,《 数字千年法案 》登场了。它以刑事犯罪立法的形式,希望在网络这块无主之地上,重振版权保护的权威。
毫无疑问,它保护了无数原创者的权利,让人们获得了相应的回报,也让他们的心血没有被盗版商肆意践踏。
可《 数字千年法案 》在保护版权的同时,似乎也催产了一些版权流氓到处碰瓷,让很大一批人也难以接触到优秀的作品。
“ 科学和教育资源,就不应该有所谓的知识产权和资本运作的存在 ” 这是 Sci-hub 传达的理念之一。
从到 Sci-hub 再到 archive.today ,他们把无法翻越的信息壁垒,难以打破的知识桎梏,都变成一个简单的回车键,让我们看到了世界的另外一种可能。
Brewster Kahle 、 Alexandra Elbakyan 、神秘人以及所有那些不追求利益去捍卫知识自由的人,他们都值得我们的尊重和敬佩。