“互联网档案馆”告急：互联网时代的公共记忆终将消逝？

公元前323年，曾经睥睨天下的亚历山大大帝猝然离世，他所建立的横跨欧非亚三洲的大帝国旋即陷入继业者的内部倾轧之中；为了收拾群龙无首的残局，亚历山大曾经的部将托勒密公元前305年在埃及地区宣布称王，并决意在尼罗河三角洲附近以亚历山大所命名的港口城市奠定统治根基，使其比肩雅典成为地中海世界最耀眼的学术中心。在举朝不计成本的努力之下，亚历山大图书馆建成，数十万卷书籍和文献得以留存和管理，欧亚非地区许多科学家、哲学家和文学家的主要著作被收集起来。然而，随着托勒密王朝的日益衰败，这座图书馆也卷入了战火之中，屡次成为侵略和袭击的目标，并最终在罗马帝国皇帝狄奥多西一世要求禁止一切异端的敕令下被破坏殆尽。

亚历山大图书馆的毁灭，被视作是全球文化史上最为惨重的浩劫之一；在后世欧洲的文化想象中，它的消亡逐渐成为“失落知识圣殿”的象征。自文艺复兴时期以来，这座曾经汇集古代世界智慧的中心成为欧陆思想家们想象与仰慕的对象，重建堪比亚历山大图书馆的知识典藏的梦想自此展开，从未断绝。随着科学技术的发展和传播介质的简化，数字技术的问世让人们第一次看到了希望的曙光；而1996年，在万维网面对公众开放不过三年以后，一位名叫布鲁斯特·卡利（Brewster Kahle）的美国电脑工程师创立了非营利机构“互联网档案馆（Internet Archive）”，以“普遍获取一切知识”为使命收集全世界的信息并将其在网络上进行永久保存，这一举动得到了“亚历山大图书馆得以复兴”的赞叹。

随着这一雄心勃勃的项目走入它为普罗大众服务的第三十个年头，互联网档案馆通过电子留档的形式保存了浩如烟海的书籍、音频、视频、软件程序、图像、文献和特色服务项目，在互联网技术被大型资本集团垄断的现实下，这一平台作为屈指可数的坚持奉行Web 1.0时代“以内容为中心的自由传播”精神的平台，依靠着全世界图书馆的捐赠、慈善机构的贡献和无数志愿者的维护毅然挺立。尽管如此，伴随着版权管理规则的收紧和生成式AI平台对信息环境的冲击，互联网档案馆正在面临着自创立以来最为严峻的威胁和挑战。

2022年4月19日，在埃及亚历山大拍摄的亚历山大图书馆内景。新华社图

为了尽可能保存全世界公开可访问网页的历史快照，互联网档案馆会通过自动运行的爬虫脚本访问网页，并将自己所阅览的内容抓取并存入自己的数据库中，在自己管理的“时光机（Wayback Machine）”网站上存放，供公众阅览和检索。这一服务在方便普通人查询的同时，出于对AI大模型系统性利用互联网档案馆的数据进行训练从而损害自身盈利模式、危及舆论信息环境安全的担忧，自2026年1月以来，《纽约时报》、《卫报》、管理全美数百家本地报纸的《今日美国》集团陆续宣布将会通过robots.txt规则、访问限制和其他技术手段阻拦互联网档案馆的爬虫抓取页面，在此之前，网络论坛平台Reddit已经宣布，他们将会对互联网档案馆的爬虫加以封杀。

随着这些限制的升级和发酵，大力肯定其公共价值。在信中，署名者对互联网档案馆的工作进行了毫不吝惜的赞扬，并表示这份记录的保存关乎新闻业子孙后代的传承，是确保这些信息对于公众触手可及最重要甚至是唯一的工具。在社交媒体上，将阻拦访问的行为比作“将亚历山大图书馆付之一炬”。另一位公开信的署名者，科技博客Techdirt的创始人麦克·马斯尼克（Mike Masnick）也表示，为了避免数据被AI抓取而封锁互联网档案馆的信息访问权，是“我们急于惩罚AI公司的过程中，对服务于所有人的公共资源的摧毁”。

互联网档案馆与记忆的政治性

师从“人工智能先驱”马文·明斯基（Marvin Minsky），1982年毕业于麻省理工学院的卡利，在成为互联网档案馆的创立者之前，曾是科技行业发展创新的佼佼者，开发了互联网上首个发布和分布式搜索系统广域信息服务器（WAIS）和网站信息数据分析平台Alexa，在这两项业务被收购之后身价千万。尽管声名显赫且事业有成，他一直怀揣着成为图书档案管理员的梦想，这在一定程度上源于他读到罗伯特·宾克利的故事——这位被誉为“数字人文界鼻祖”的历史学家在1930年代将大量书籍制成微缩胶片并复制传播，旨在向美国农村地区以更为便利的方式推广知识。

自互联网作为基础设施投入运行以来，网页缺乏可追溯性便一直成为了许多人最为头疼的问题。无论是遭遇人为删除还是服务器停运，曾经可访问的信息都可能轻易变成一页“404错误”页面，且不留任何物理痕迹。根据皮尤研究中心的调查数据，从2013到2023年的十年间，在他们抽样调查的540万个网页之中，有38%的网页已经失效，而有25%的网页已经彻底消失。依靠着互联网档案馆的保护，这些已经消失的网页的数量才由25%降低到10%。通过将网址信息置于它存在时的语境中以供不做评价的浏览，互联网档案馆的作用不仅限于帮助用户获取内容信息本身，

随着网页存档工作的成功，自1990年代末开始，卡利将互联网档案馆业务范围向各类不同的媒介扩展，致力于为寻求各类不同信息的人们提供综合的查询和阅览服务。互联网档案馆迄今为止已经存储了约1万亿个网页、5600万本书籍和文本、1300万个音频文件、1500万个视频、530万张图片和130万个软件程序。当现实世界中的档案保护工作在错综复杂的世界局势中面临日益严重的武装冲突和资金短缺的威胁，互联网档案馆已成为存储这些无价信息最直接可及的渠道，有时甚至是其仅存的归宿。

对于许多职业的核心工作而言，互联网档案馆是一项不可或缺的公共工具。来自不同行业的专业人士都异口同声地指出，互联网档案馆的服务至关重要，是他们的研究得以继续的命脉。在缺乏资金、原始资料已消失、被修改、地理上无法获取、绝版或技术过时的情况下，互联网档案馆的服务至今无法被替代。

从这种角度上说，互联网档案馆真正的作用并不只限于它所承载的信息和它为服务对象提供的便利，而在于它让信息拥有了可以被记忆的途径，从而为这些记忆提供了被赋予价值和意义的基础条件。在媒介数字化的时代，记忆已经远远超越了大脑内部活动这种单纯的个体生理行为，而是以技术为支撑、以公共参与为底色，将那些散落、易逝、易被篡改的数字痕迹，转化为可被回溯、可被共享的集体记忆。荷兰媒介研究学者何塞・范戴克（José van Dijck）在《数字时代的媒介化记忆》一书中指出，记忆和媒体都不是被动的载体，更有效地拆除了记忆生产与传播的壁垒 —— 它兼具档案的留存功能与公共参与属性，以中立开放的平台收纳多元信息、呈现原始痕迹，由此打破了由官方、精英单一主导的传统记忆载体的叙事霸权。

加利福尼亚大学洛杉矶分校（UCLA）社会与遗传学研究所教授克里斯托弗・凯尔蒂（Christopher Kelty）指出，互联网的问题并不在于技术本身，而在于其背后的社会与政治构想：原本促成它成功的开放性，参与性，去中心化表达等曾被视为促进自由与平等的理念，在平台资本主义垄断的语境中借助旧有的政治特权所加以曲解异化，转而服务于权力集中与经济控制之中，最终使得它变成了如今这副数据被平台收集与变现，信息和真相可以被随意操纵，用户从消费者变成被消费的内容的模样。互联网档案馆的存在宛若定格于Web 1.0时间中的活化石，在如今的社会生态环境中凤毛麟角。

AI与版权：互联网档案馆的危机时刻

互联网档案馆之所以成为众矢之的，恰恰因为它坚守着Web 1.0时代那种把知识尽可能开放、复制、共享的伦理；而今天主导互联网的平台和版权秩序则越来越把信息看成需要被圈定、管控和变现的资产。在他们的认知中，如果一家有影响力的实体的原则未能按照他们制定的游戏规则“与时俱进”，那么它就可能对自己对这些资产的持续垄断的威胁，就会成为他们利用法律手段直接攻击的目标。在21世纪初，多家提供音乐流媒体、电视广播或软件服务的在线平台因版权纠纷被起诉至破产，彻底终结了Web 1.0时代之后，版权持有者开始逐渐将目光转向了互联网档案馆。

根据《美国法典》第17编第109(a)条规定的首次销售原则，美国图书馆在分发范围有限的情况下，依法有权分发其拥有的书籍实体副本，这被视为合理使用，从而使图书馆能够履行其最基本的功能：出借书籍供人们阅读。建立在为图书馆设置的合理使用的基础上，互联网档案馆为其藏书开发了一套受控的数字借阅系统，这些藏书通常来自其合作图书馆制作的复印件。该系统依托数字版权管理技术，且仅允许一名用户通过候补名单同时借阅一本书进行阅览。按照他们的主张，在受控数字借阅模式下，对这些实体藏书进行数字化并按“一本实体对应一份数字借阅”的方式出借应被理解为图书馆职能在数字时代的延伸。

问题出现在2020年3月新冠疫情期间。当时各图书馆关闭，互联网档案馆放宽了限制以鼓励更多人访问其存档书籍，允许多名用户同时借阅一本书，并为此推出了一项名为“国家紧急图书馆”的服务。几个月后，由美国出版行业协会所支持的四家大型出版商对互联网档案馆提起诉讼，认为“国家紧急图书馆”及其借阅服务违反了合理使用原则。他们主张，由于互联网档案馆本身并不是书籍的持有者，因此无权在线以自身的名义出借数字副本。

尽管这起诉讼仅涉及 127 本与出版商版权相关的图书，但是作为全世界最大的数字副本档案，互联网档案馆的管理者们深知这起诉讼的余波将远远不会是这几本书那么简单；在案件的口头辩论开始不久以后，互联网档案馆的高级政策顾问在新闻发布会上表示，这些出版商并未给出互联网档案馆的借阅行为直接给他们的销售产生经济损害的有效证据。在诉讼过程中，美国东北大学一位经济学家提交的专家评估报告指出，大多数图书的主要销售额产生于其商业生命周期的早期，而许多图书的前五年销售额就占其总销售额的90%，但互联网档案馆通常在图书早已过了销售高峰期后才进行数字化处理，因此该借阅计划并未对出版商的图书销售造成实质性损害。

尽管如此，2023年3月，纽约南区地区法院裁定出版商胜诉；2024年9月，第二巡回上诉法院维持原判，认定互联网档案馆的全书扫描及免费在线借阅行为不构成合理使用。三个月后，互联网档案馆公开表示，他们将不会向最高法院申请复审，并同意在借阅系统中移除被出版集团点名的书籍，总数超过五十万本。在诉讼尘埃落定以后，相比于广泛鼓励数字化副本传播，以公共教育为名义对电子借阅行为进行版权豁免的欧洲、印度和中国，美国的图书管理体系已经不再像之前那样领先世界。

除了书籍外，由于这种录音介质及其播放设备早已绝版，互联网档案馆主张，对其进行数字化处理旨在为研究人员和后世保存历史，这与该机构保存书籍的初衷如出一辙。尽管互联网档案馆表示，从商业流媒体单次播放成本的角度来看，这些歌曲的播放次数产生的收益微不足道，但拥有部分录音版权的多家唱片公司仍就歌曲数字化一事提起诉讼，索赔金额超过七亿美元。尽管这起诉讼在未作出最终实体裁决的情况下达成了保密和解，但数千份唱片公司声称仍在市面上流通的数字化录音也因此被永久下架，从而避免与官方流媒体服务形成竞争。

正在版权问题已成为对互联网档案馆持续运营稳定性的严重威胁的同时，AI公司广泛利用互联网档案馆的数据进行模型训练的做法也引起了新闻和社交媒体平台的担忧，从而导致了他们在今年所作出的封锁决定。这些平台的发言人不约而同地表示，他们并非专门针对互联网档案馆，

这些行为已然成为平台与人工智能公司之间冲突这一更大趋势的一部分：《纽约时报》集团以“通过隐藏爬虫非法复制网站内容”为由起诉了OpenAI和Perplexity，并指控他们生成的内容与网站的原文不符，属于“AI幻觉”；而一名法官在听证后裁定，允许14家主要新闻出版商联合起诉另一家人工智能初创公司Cohere，理由是该模型生成的内容“数量和质量上均与原内容相似”。在美国各地，并以此来对自己的模型进行数据训练。尽管他们认为这种侵权并非蓄意为之，但他们相信，正是互联网档案馆免费集中保存信息的机制成为了这种侵权行为的“后门”。

互联网档案馆所发挥的关键作用赢得了多个领域的广泛支持，从而催生了今年四月呼吁各大媒体平台不要限制爬虫的联名信。在这些人看来，它的持续存在让它早已超越了自己的功能本身，作为Web 1.0时代的绝唱，演变为自由开放的信息环境精神的象征；也正是因为如此，互联网档案馆的消失将会让奥威尔在《1984》中那句“谁控制了过去，谁就控制了未来”的预言一语成谶，从而让对权力的有效问责变成一纸空文。

互联网档案馆的未来会在何方

就连互联网档案馆自己也承认，自己的工作并非十全十美：在资源约束、反爬虫拦截、登录墙与付费墙阻隔、深网内容无法触及，以及大量仍可访问的网页因发现不及时沦为 “濒危网址” 的多重局限下，在网页持续消亡、平台限制不断收紧以及内容生产机制发生变化的背景下，它所能保存的，不过是一个始终处于流失与补救之间的历史切片。

如今的互联网档案馆似乎走进了自己亲手编织的一个“死结”当中：它在互联网资本早已筑起高墙的年代，固执地认为只要有足够多的使用者和足够积极的名誉，就可以度过一切困难和挑战。诚然，它利用自己的公共价值和利益，成功地避免了自己因为侵犯书籍和音乐作品版权而可能带来的灭顶之灾；但在这场与新闻机构的政治中，他们并非唯一的受害者，他们也不应该将自己表现为毫无反抗能力的受害者，将话语权和决策权主动送给了已经面临着多重争议的AI集团们。

互联网在它出现的三十余年中，硬件设施的进步让它已经成为了无处不在而必不可少的基础设施，从而帮助人们克服了技术上获取网络的困难，然而硅谷垄断集团的崛起却让主流互联网选择了遵守过去的游戏规则，记忆不是中性的，记忆是对过去的回溯和意义赋予，是选择记住什么、遗忘什么的权力实践，是抵抗历史被篡改与未来被平庸化的最后堡垒。

在一个弱肉强食的时代，却不可能真正解决它迫在眉睫的问题。Web 1.0时代的理想终究未能兑现，但作为新时代的“亚历山大图书馆”，互联网档案馆必须采取更加决绝的决心与举措去守护自己所保存的那些数据和信息，对AI依赖所产生的泛平庸化和惰性说“不”，才能够不让它和那些坚守事实真相，相信记录历史有价值的人们感到失望无助。

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们反馈本站将在三个工作日内改正。