近日,澳洲软件公司 Atlassian 宣布了 BitBucket (原地址为 hg.io) 将停止对 Mercurial 的支持,并将删除在平台上所有的使用 Mercurial 管理的软件的源代码。这不得不让大家重新问一个问题:在 21 世纪,网站关闭是否是人类知识保存的最大敌人?
答案是肯定的。
对于爱范儿来说,BitBucket 对 Mercurial 的支持的停止会带来一定的影响 —— 自从 2010 年起,爱范儿的主要源代码便托管在了 BitBucket 上。尽管技术上爱范儿完全可以(也即将)自行设置 Mercurial 服务器,但此类决定的影响远远不只是爱范儿一家公司,或一些个人以及群体收到影响那么简单。
社区使用 Mercurial DVCS 的项目,例如 PyPy 等,是否可以找到替代品?一些个人维护的项目以及代码片段,是否会就此佚失呢?即使大部分人最终找到了替代方案,那些无法找到替代方案的用户,或被认为「不重要」而丢失的代码将永远消失在这个互联网上。若有程序员已经离世,这些数据也将永远地消失 —— 这可能是他本来对这个世界留下的贡献。况且,一定会发生的是,大量文章、博客、书籍中引用 BitBucket 的链接将完全失效。
这样的问题,也绝不仅限于计算机行业而已。不需要想太多,我们眼前便有非常多的例子。百度曾在 2015 年彻底关闭了百度空间,导致大量中文内容 —— 有些是极为优质的内容 —— 在这个世界上消失了。尽管百度可能有一万个理由认为这是一个极佳的商业决策 —— 对此我也不会怀疑 —— 但不能否认的是,这是另外一种书厄。
另外一个例子是百度最近删除了百度贴吧 2017 年之前的所有内容。也许这是某个产品经理为了降低运营劳动强度的决策,也许这是为了下猛药根治垃圾信息的决定,但这不能掩盖的事实是,这是一个极蠢的决定。除去百度贴吧的历史内容带来的长尾流量以及因为历史数据被删除导致的愤怒的用户流失到其他平台带来的损失之外,曾经没有那么浮躁的中国互联网社区的优质讨论亦一并消失了。
另外一些互联网用户可能还记得人人网。在商业上,校内网时期它曾经很成功,目前也失败了。最近,人人网关闭了日志功能 —— 就是那个曾经引起无数骂战,也有非常多优质内容的平台。整个日志功能已经完全下线,只留下了 Tengine 的默认 404 页面。
作出这种决定的,也岂止是中国的互联网公司。微软也不能例外。他悄悄地从 MSDN 里删除了老旧软件的下载,并一并删除了 FAQ “Q” 文章, KB 以及 MSDN 文档,并在早些时间关闭了 FTP 服务器。举个例子,在今天,如果你想知道 Windows 95 下执行 DOS 程序时的设备竞争关系如何解决 —— 对不起,除非你和我一样手边还有纸质的 FAQ 文档,你是无法通过查阅 Q130402 “Device Contention in Windows” 这份文档来寻找答案的(答案是 system.ini 的 [386Enh] 字段中设置 Com[n]AutoAssign 的值)。再举个例子,如果你希望验证自己写的 FAT32 文件系统检查器是否符合微软的实际实现 —— 你应该去 MSDN 下载一份 Windows 95 或是 MS-DOS 7.00 后执行 CHKDSK.EXE 验证,然而这已不可能做到 —— 因为 Windows 95 已在 MSDN 上被拿掉了。
即使是学术界也不能避免因为数据被人为或非人为的丢失导致的损失。北大中文论坛是一个讨论中文的学术论坛,其中对中国文学、音韵学以及中文信息处理的讨论都是相当有价值的。论坛被关闭,大家付出的脑力劳动便丢失了。
那么,这个问题可以解吗?答案是肯定的,但是又是否定的。
首先,部分网站即便关闭了,也可以从因特网时光机 (Internet Wayback Machine) 上找回。但是,这只针对未使用复杂的前端技术的网站才适用 —— 这也意味着,今后因特网时光机的可用性将越来越差,因为新的单页应用/富交互应用/需要登录方可使用的应用是无法被因特网时光机所收录的。而且,对于 App 来说,丢失了便永久丢失了 —— 这是无法被因特网时光机收录的。
其次,技术上来讲,八九十年代的互联网数据到现在的留存率甚至比当代的互联网数据留存率高很多。那时的互联网上,协议的主流是 USENET 以及 Fidonet。由于其天生的转信优势,直到今天都可以翻阅存档。
但是,不管是在中国互联网还是在国际互联网的语境下,互联网公司都极少有企业会以造福人类为目的存在 —— 与之相反,互联网公司最典型的模式是由 VC 投资,由私营公司以盈利为最终目的运行的。在这个模式下,可以在平台外自由地获取信息自然是与大部分创业背道而驰的。反而,将独占的内容留在平台内吸引用户来平台以便有更多的流量的实践是可以让平台取得更好的发展的(爱范儿可能是个例外,作为内容生产者,我们的内容是 CC BY-NC 4.0 协议授权的,并有 sitemap.xml 可供人类驱动的机器抓取)。
似乎这又是一个环状依赖的问题 —— 如果没有优质的平台,何谈优质的内容?若无法保持平台的粘性以及独特性,平台又如何可以生存?但若服务无法持续下去,这些优质的内容以及知识又将因为平台锁定而永久地丢失。
观察近几年的趋势,从 RSS feed 的衰败到 Google Reader 的死亡再到如今超级应用作为人们生活的绝对核心的现状,知识与数据越来越集中到了少数公司的手中。即便技术上我们有 IPFS 等分布式计算能力,然而实际上由于其不便使用的特性(以及更关键的 —— 大家没有意识到这个问题的严重性),它的普及可能性约等于零。
最后,提出一个假设性问题 —— 如果有一天,风雨摇摆的印象笔记关门大吉,你的笔记会怎么办?
题图来自:Unsplash