混沌与控制——大数据时代档案理念与模式革命

2013年,世界突然发现自己不再停留在单一的空间,而是一个由大数据组成的信息网络中。我们越来越发觉一些曾经信奉的真理突然变得不堪一击,人们 的隐私已经成为公开的秘密。当我们的生活被数据入侵时,不得不放下自以为是的孤独,成为信息时代的一个节点。而在这个时代,档案界悄然酝酿着革命,而革命 的领导者,却不在这个圈子里面。档案学所面临的是被革命还是自我革命的抉择,将让我们深深陷入这种困惑起码三到五年。

数据:档案的形而上命题

我在《数据,信息,档案》一文中简单的说道,似乎档案和数据之间有一种直接的重叠,在这个重叠区域数据就是档案,只不过数据是为了处理而解决当下的问题,而档案则是为了保存解决将来的问题。

大 数据时代,人的双手将被进一步解放。工业生产将进入信息生产时代,而数据就像石油和铁矿,是信息生产的原料。信息的爆发让我们有取之不尽用之不竭的资源, 虽然这其中也有很多杂质,但先进的技术和理念将解放我们的劳力和思维,它就像一个黑色的匣子,你把所有东西丢进去,它把你需要的东西吐出来,如此简单。

人 们越来越不相信成品,因为任何成品都经过加工,一条信息经过加工被媒体公布出来,一定会有事实被掩埋。2014年,自媒体会爆发,一种不愿意接受传统媒体 加工的媒体传播形式将成为媒体的新模式。拥有强大武器的普通人也不愿意唯媒体是瞻,任何人都可以通过百度、微博进行信息收集、筛选、加工,并在社交网络中 发布传播。人们越来越不相信现有的渠道,说到底,人们希望自己手上拥有原材料,然后自己验证事实。消除这种信息差让普通人变得更加强大和自由,而媒体可能 被此革命,但无论如何,在大数据时代这种能力变得易如反掌。

档案界一直试图为用户提供最终的开发成品,实际上人们更需要原始数据,档案馆应该按照原样提供档案信息,同时提供给用户可以自行加工的工具和环境,这是档案馆服务的未来。随着这种类似科幻电影的信息生产力成为社会主流时,档案界所要面临的问题可能比现在丰富而复杂的多。

纸 不会消失,就像羊皮还是可以用来刻印美国宪章一样,但是这并不意味着以纸为载体的档案将持续成为档案界的中心,甚至连胶片、光碟都将逐渐被大数据时代的新 型技术所替代。档案的原本确定性(凭证性)将会以另外的形式表达,而非红印章和白纸黑字。数字化档案的真假将会是一个体系性工程,一份档案无足轻重,也就 无所谓凭证。大数据不是指“量大”,而是海量数据所蕴含的“全面、准确、多样和关联”,大数据时代对一个人或一件事的审判可能不再是确凿的证据,而是一种 不确定中的预期。虽然这种所谓预期看似存在错误的可能性,但实际上它比用一份档案对一个人进行判决更加可靠。

档案的形态将会是什么?我想我 们所留下的一切可以数据化的痕迹就是档案。然而,我们不能以一个人的局限性去谈档案,而是要从整个社会网络去谈档案。一个人,一个企业,一个政党,它所留 下的数据化痕迹仅仅代表它所想留下的活动轨迹,而整个社会网络中对它的评价、反馈、透露,都将侧面印证它的本质,而这一切加起来才是事实。这是档案,一种 用全部数据进行印证性活动的挑选和推理集合。

混乱:来源原则的革命

当时代真正的把答案交给事由原则时,档案才真正有了自 己的使命。来源原则似乎解决了大量数据的堆积问题,在一两百年前可谓功不可没。但是时代变了,就像16世纪的欧洲幻想家绘画作品中的飞机汽车得以实现一 样,事由原则在技术革命中可以逐渐重回人们视野。“大”有一个相对的基础,卡缪多努时期的“大量”仅仅是一种空间形体上的大,如果在那个时候人们可以通过 扫描和识别技术数据化所有档案,档案学家们会因为来源原则而喷然大笑。来源原则只是一个缓兵之计,我们必须承认它在档案史上的伟大功劳,但就像一切辉煌终 究会过去一样,经历了不少于10次的发展之后,它似乎应该退居二线,让新的档案组织形式开始实践。

我还记得自己第一次在课堂上接触档案管理 系统时,觉得这是多么的搞笑,一个电子文件居然还需要人工去录入,还要按照时间、部门分门别类,对每一个字段都要认真填写,还有一个大大的分类体系和主题 词库,这简直就是一场噩梦。大数据时代的到来,让我们可以再理念上突破这种狭隘的思维。世界的确定性构建不再需要了,没有什么东西是必须要归到哪一类去 的,整个世界就是一场混沌,然而这种混沌却可以随时提炼出有价值的东西出来。

混沌并非组织形式,它只是假象。世界上的几乎每一粒沙子都被一 种无形的力量牵引着,这种力量来自于人类的伟大创造。我们再对某个新闻贴上标签的时候,是如此的随意和惬意,然而我们不知道的是,我们所贴的标签背地里早 有一条线和其他无数个相同或同义的词连在一起,而一条信息上的多个标签和它们不同的关系网联结在一起,构成了我们这个世界。唯独,我们人类看不到这些牵引 一切的力量,只有计算机可以。

档案的分类不再被任何词汇约束,这种模式来源原则永远无法构建。来源原则的模式是垂直树形,偶尔交叉,这让原 本完整的世界被分割为不同的区块,仅一些细枝末节被连在一起。档案的体系将会是牵住一个点就牵住了整个世界,通过强大的计算能力来构建超出档案本身的档案 模型。只有这种比网状还复杂的立体模型,才能真正称得上档案的本质。

人类被因果关系束缚的太严重,几乎所有的学术论文都在按照一定的规律陈 述原因,但是原因永远都无法陈述完全。恰恰相反,为了得到确切的答案,很多人不惜自欺欺人捏造一个极其符合逻辑的因果来让自己信服事实的真相,并希望世界 上所有的人都为此震惊。实际上事情的因果不再显得那么重要,因为即使不一定知道原因,我们也可以规避风险和获得收益。几乎所有的社会部门都在构建自己的数 据库,把往常的数据进行处理和分析,找到哪些地方是自己的薄弱点需要加强管理,哪些时间段通过什么形式可以增加收益,至于为什么并不重要。

正 如前文所说,人们越来越愿意自己构建事实,而如果档案信息足够完整,技术手段足够强大,这不是什么难事。人们开始发挥自己的智慧,创造和别人不同的结果, 因为即使整个世界连为一体,牵住一点而获得的任何事实都将不同。这种创造性体验正在图书馆实践,他们试图为读者提供3D打印机,随时随地把突然的灵感实 现。这种灵感常常不来源于条理清晰的分类体系,而是来源于杂乱的信息丛中。

我们不能否决来源原则在局部范围内的重要作用,然而,我们不得不面对自己已经置身其中的社会网络。

预测:鉴定理论的颠覆

如 果我告诉你,你明天早上准备吃什么的时候,你一定不要惊讶,因为你们家冰箱里所残存的奶酪点心我了解的一清二楚。当世界进入一个崭新的时代的时候,无数人 开始害怕,我们赤裸裸的站着,等待别人的调戏和嘲笑。大数据时代几乎不存在个人隐私,保护隐私成为一种逆向发展,只有当隐私被充分暴露而合理利用时,你才 会发现你的一切生活正常。这可能是一个讽刺,没有隐私的人活得潇洒自在,严守隐私的人寸步难行。然而,随着大数据成为社会生活的主流,当你决定离开这个社 会网络的时刻,你也就被无情的抛弃。

虽然我们试图不再遵循来源原则,然而我们仍然知道,档案的本质是一种凭证性。 档案不是全部,不是连接整个世界的所有一切,档案是这个多维世界的脑神经,起着中枢作用的部分网络。我们不能拿江西某市的档案资源和美国科罗拉多州的所有 档案硬性加上我们想要的联系,这是一种因果关系的局限思维。承认其有联系固然重要,承认其无联系才是思想的核心。因此,档案是一些分散的成团的信息网络, 虽然在这个网络中它和其他的社会网络没有任何不同。

就像人的脑细胞死亡就不能重生一样,档案的存亡对整个社会网络起着极其关键的作用。我们 曾经试图通过各种形式让档案精简下来,把最精华的留给后人。我们也尝试各种先进的技术,延长档案的寿命。然而,每一种鉴定理论都会给我们带来致命伤,理论 的时差让我们寸步难行,当我们已经在一个鉴定理论的指导下,建立了庞大的档案管理和利用体系时,新的鉴定理论要求要把这里面的一些剔除掉,而以前认为可以 销毁的要保留下来,这时保管人员捶胸顿足,吆喝“要是早晓得就把那些档案保留下来!”

人们对档案的挑选就是对历史的构建,我们所掌握的一切 真相,不是因为我们拥有强大的智慧和技术,而是前人决定历史应该这样或那样。大数据时代对历史的随机构建将成为过去,确定档案信息的联结价值成为坚定核 心。富有远见者已经发现,通过数据来预测未来比从数据中挖掘真相更加有趣,虽然它们两者都不一定千真万确。大数据辅助决策已经成为整个世界的核心趋势,无 论是为这个社会保驾护航的政治决策,还是提供高档消费品的经济决策,或是服务百姓的社会决策,都可以通过大数据提前预测拿出解决方案。

而更 加有趣的是,人类随着一次革命获得更大的自由之后,人的个性成为这个社会的核心价值。那种以教育式的服务模式将不复存在,因为在繁杂的个性化定制服务中, 它们根本没有竞争力。在第三方运营商根据100个不同的用户制定100套上网流量套餐之后,中国移动的流量包不会得到任何人的垂眉。价值的体现来自对人的 高度肯定,这是大数据服务的命脉。

档案信息服务走向个性化精准推送只是时间问题,如何构建这种足以预测档案用户需求的网络呢?按照二元价值 这么广泛的理论,再为精妙的系统,可能都无法完成这项艰巨的任务。档案大数据取之于民用之于民,不以理论的重要而定去留,而以实际的可能需求为导向选择合 适的平台分别存储。

这个时代让我们充满渴望,但同时又担心自己在全速前进的社会浪潮中慢人一步或走错方向,可是无论如何,驻足不前都不是最好的选择。

2014-11-22