数字档案馆的特殊形式——Web档案馆

在我之前的一些探讨中,已经涉及到Web档案馆的相关信息,但未做比较详细的阐述。Web档案馆可以理解为以保存互联网网页为主要目的的数据档案馆 (这里先不指为数字档案馆),它的目标是将互联网上有价值的网页保留下来,就像档案一样,以供后世阅览与使用。但这是一种比较口语化的理解,学术界尚无统 一的定义,甚至在国内尚无专门的文献来研究Web档案馆。

Web信息的社会记忆功能

在5年前,我们将网络世界称为虚拟世界,将网恋等互联网活动视为虚无的,甚至虚伪的。但今天的互联网已经成为人们生活的一部分,特别是在电子商务、民主政治方面表现突出。网页档案、Web档案馆、Web博物馆等词汇不断出现。令人思考的是:网页信息凭什么进入档案学视野?答 案就在互联网本身。如今的互联网是当前历史阶段社会风貌的正面反映,在现在这个信息社会初期,互联网基本记录了这个时代的特点及内容,而这些信息的大部分 载体即网页信息。T·库克曾经指出,历史的构建是经过挑选的,历史学家的历史是建立在经过挑选而保存的档案史料中。当今这个时代需要思考的是,如何为后世 留下真实的档案史料,也就是更全面的历史。因此,网页信息进入了档案学的视野,档案学在对待Web信息的档案化保存时,体现了非常宽容的胸怀,即并没有固 守成规追求web信息的真实性可靠性,而是试图研究全面的归档网页信息,无论是真实信息,还是虚假信息,以留给历史全貌。这是以往从未有过的,也是档案学 放低姿态,面向百姓民生的第一步 。

Web信息的异构性

但 与传统档案材料有着天壤之别,且使得归档工作难以展开的直接原因在于Web信息的异构性。无论是纸质档案还是办公系统中的电子文件,档案学研究者都能很快 找到其工作的规律,并提出生命周期理论,在全宗理论和此理论基础上,建立了一套完整的档案管理理论与原则,档案工作即使在受到政治、资金、技术的限制情况 下,也能顺利完成基础工作。但是Web信息的保管不同,几乎毫无头绪,任何一位档案学家在面对Web档案管理时,都无法足一而论,实有盲人摸象的感觉。档案学的一些理论是时候该被突破了!

《档 案法》规定“一切档案属于国家,私人档案禁止买卖”。档案的所有权是公有,是属于全体人民。但实际情况不是这样的,特别是遇到Web信息的时候。一般情况 下,国家机构和企事业单位每年年终应该向档案馆移交当年所形成的所有档案,为实际工作需要,可酌情保留一部分档案,但所有档案的最终归宿都是档案馆。然而 当我们审视新浪、腾讯、阿里这些互联网巨头企业时,发现他们如果要移交档案,几乎没有什么可以移交的,或许是一些公司业务中产生的财务档案吧,然而淘宝 网、天猫网、新浪网、腾讯QQ的一切数据不被记录在内。一个互联网公司不可能永远存在,如果企业由于破产或灾难性的事故导致这些数据丢失,那么这是不可逆 的。

Web信息的采集

1、批量式采集

Internet Archive中国Web信息博物馆为典型代表,以整个互联网为收集对象,采集能采集到的所有网页。

2、选择性采集

基于域名、基于主题、基于事件等,从不同的角度,采集一定范围内的互联网信息。

3、资源类型采集

只针对特定的资源进行采集,如只采集政府网站信息,或有的只采集博客网页。

Web档案馆的限制条件

Web 信息的所有权到目前仍然没有定论,即使在版权问题上,也无法一一定论。故而,在Web信息保管上,几乎没有国家层面的规划,目前在做的都是以社会组织(非 盈利性)的形式存在,因此在资金上存在先天的缺陷。除此以外,Web信息自身还存在一定的阻碍因素,网页代码杂乱、干扰信息多,几乎所有的社交网站都需要 登录才能获取更多内容,有些Web信息只在内部交流,还有些信息隐藏在互联网深处无法挖掘。

一般部门要做好的基本工作

作 为一个组织也好、企业也好,应该有意识的去收集和保管互联网上与自身相关的信息,无论这些信息是正面的还是负面的,并建立一定的数据库,以更好的管理这些 信息。实际上,目前很多大企业(特别是国际上)已经在做这样的事,它起码有两个意义:1、构建企业组织文化;2、为今后的工作借鉴。那么,作为组织企业, 应该收集那些Web信息呢?

1、自己门户网站的网页信息

一般来说,一个组织(大小不一,门户网站个数不同)的门户网都是自己创造内容,看上去不需要收集保管。但实际上会发生很多意外,让组织失去这些信息,有如下的一些情况:发生灾难事故;网站升级或重大更新;重大改版;网站用户创造新内容。

2、互联网上和自己相关的网页信息

任何需要有社会效益的组织,都会关注互联网上和自己相关的信息。收集这些信息需要注意渠道问题,一方面可以利用现有的互联网搜索引擎,另一方面,可以组织专门的人员注册相关社交网站,通过社交网站内部索引搜集,最后,也可以通过第三方组织进行API采集或直接购买。

2014-11-22