内容检索:
 
当前位置: 网站首页>>专题研究>>档案文书>>正文
金 波 添志鹏|何谓“档案数据”:档案数据内涵与特征探析
2020-07-29 12:56 金 波 添志鹏  档案那些事   (阅读: )
undefined


在“数据为王”的大数据时代,社会对“数据”的尊崇燃起了档案界从数据层面审视档案信息资源的热情,随着信息技术应用的外在推动以及档案信息化建设的内在发展,档案数据大量形成,档案数据管理无疑会成为档案工作的新常态。因此,档案数据的研究自然也就成为当前档案学领域的前沿课题。为了帮助大家更好地了解有关知识,今天“事儿”特意安排了一篇文章对档案数据内涵与特征进行深入分析。在此特别感谢本文作者和《档案学通讯》编辑部的转载授权!

undefined


本文看点

1.档案数据是在什么样的时代背景下形成的?

2.档案数据与传统档案有哪些不同?

3.档案数据的含义是什么?档案数据有哪些特征?

摘 要:档案数据作为大数据时代档案领域出现的新概念,虽被档案界普遍使用,但其概念内涵并不明朗。对档案数据形成的时代背景进行分析,从存在粒度、开发方式和价值特性三个方面探讨档案数据与传统档案的差异,提出档案数据是数据化的档案信息及具备档案性质的数据记录,具有广源性、共生与互生性、累积性、扩展性和易算性等新的特征形态。

关键词:大数据;档案数据;档案信息

基金项目:国家社科基金重点项目“大数据时代档案数据治理研究”(19ATQ007)。


1 档案数据形成的时代背景

1.1 数据化浪潮:档案形成生态环境的变化


社会数据化程度的加深。数据化“是人类在信息传播、人际交往乃至日常生活的过程中,为了便于沟通、传播与保存,将一切客观存在均处理为数据,进而使得整个人类社会成为了一个庞大的数据库。”[3]数据化社会不仅带来了空前的信息技术革新,更创造了全新的生产模式、工作业态和生活方式,在物理世界之上构筑起数据世界,进而深刻塑造着档案工作的社会生态环境,推动着档案工作与数据的关联和融合。

档案形成生态正在由“模拟态”“数字态”向“数据态”转变。档案是社会背景的真实反映和社会活动的真实记录,数据化浪潮从源头上改变了档案信息的记录、读取、存储和传播方式,档案数据大量产生,“原生环境数据化、形成方式数据化、来源形态数据化”的档案形成生态逐渐形成,档案资源形态从模拟态、数字态向数据态“质变”,档案数据将成为数据时代档案信息资源的主体,档案工作正在经历一个从管理档案实体到管理档案数据的应变过程。

1.2 档案事业的“数据革命”:档案工作从“数字化”向“数据化”转型


档案政策话语的数据化理念。在全面促进大数据的布局和发展中,档案数据也成为档案管理工作的重要内容,“档案数据”一词在国家相关政策标准条文中频繁呈现(见图1)。由此可见,档案数据管理已纳入国家档案事业发展顶层设计之中。

undefined

图1 含“档案数据”概念的相关政策标准条文

档案管理部门的数据化实践。档案信息化工作开展以来,档案部门进行的以数字化扫描、数字档案馆(室)建设、数字化利用服务为主的档案“数字化”管理实践,虽然解决了传统档案信息的载体转换、数字存储和便于利用等问题,但只是改变了档案的描述、呈现和利用方式,对档案信息内容控制的层级、深度、力度有限,难以挖掘和充分实现档案的价值,迫切需要从“数字化”向“数据化”演进。当前,档案部门正在积极探索和开展档案“数据化”管理实践,将管理对象和管理方式向数据和数据化延伸。如上海自贸区在全国率先推行电子档案“单套制”管理模式,将OA办公流程与电子文件归档、电子档案管理流程对接,通过电子文件归档与电子档案管理原型系统实现对电子档案内容数据、目录数据、元数据和管理利用数据的有效管理。[9]浙江省通过构建自动化的电子文件管理体系,制定大数据归档范围与标准、公共数据管理办法、电子文件归档数据规范以及智能化的档案信息服务网等开展智慧档案和档案管理智慧化建设,建立档案数据共享、传输和交换机制,推动档案数据向各部门和社会共享利用,实现“让群众少跑腿,让数据多跑路”的档案服务。[10]

智慧档案馆建设的数据化基因。智慧档案馆是数字档案馆的高级形态,必须基于档案数据资源、依靠档案数据管理、辅以智能数据技术才能充分挖掘档案数据资源价值,实现智能化管理、知识化服务、精细化服务、个性化服务,将档案“资源库”变成“知识库”“思想库”“智库”。从技术层面看,大数据、人工智能等数据技术的应用是智慧档案馆的技术表征;从管理对象看,数据化的档案信息资源是智慧档案馆的根基命脉;从管理方式看,细颗粒度的档案数据管理是智慧档案馆的支撑手段;从服务理念上看,智慧化的知识服务是智慧档案馆的价值目标。由此可见,数据化是智慧档案馆发育成长的基因,齐全完整、质量上乘的档案数据是智慧档案馆的核心生态因子,是智慧档案馆生存和发展的基石。“部署和全面推进档案数据化工作,正是数字档案馆建设向智慧档案馆建设的基调和缩影。”[11]

1.3 数据科学的兴起:档案管理与数据管理的融合


从数据出发,让数据说话,用数据导控。数据科学的概念于1974年由图灵奖获得者彼得·诺尔(Peter Naur)首次明确提出,经历了一段“沉默期”以后,随着大数据的发展成为新兴的研究领域,它将“数据现象”和“数据问题”从信息科学中独立和凸显出来,“使信息科学不再直接受限于信息论、控制论和系统论等底层基础理论,而更加依赖于数据科学层次的理论创新。”[12]档案学属于信息科学研究范畴,数据科学的兴起促使对档案管理对象的认知进一步向档案数据延伸,有利于揭示档案数据的本质特征和运行规律,并在此基础上探索数据科学中数据加工、数据计算、数据管理、数据分析、数据产品开发的理论、技术、方法在档案管理领域中的应用,建立档案数据科学管理体系,促进档案学与计算机科学、统计科学等的交叉融合。

数据管理激活档案数据。“数据管理是指将数据视为重要的信息资源,运用云计算、物联网、大数据、智慧工程等现代技术对数据资源进行有效的收集、处理、存储、挖掘和利用,保障数据长期可用,实现数据价值,提高组织运行效率和核心竞争力。”[15]档案数据作为国家和社会重要的信息资源,恰恰是数据管理的对象和特定场域,数据管理必将对档案管理理论、管理方法、管理模式产生变革性的影响。数据管理能够有效激活档案数据,从中提取价值、探求知识、启迪智慧,“构建人的关联、物的关联、人与人的关联、人与物的关联、时空的关联,形成彼此连接、相互交错,网络状数据连接格局”[16],使档案数据在管理中发挥更大的能量和价值,让“啤酒和尿布”的故事继续演绎。

1.4 “大档案观”:档案数据是档案学研究的热点


“大档案观”促进档案数据“应归尽归、应收尽收、应管尽管”。“大档案”观不仅潜含着从社会发展的角度思考档案工作范围、拓展档案事业社会空间的工作思维,同时也潜含着对档案构成的重新理解和认识,要求跳出传统官方‘小档案’的认识思维,扩大档案的构成和成分,强化对社会各类档案资源的认知和管理。”[17]在当前的大数据环境下,“数据、信息、文件、档案等概念之间没有共识的边界”[18],档案的边界逐渐扩展,信息存储能力极大增强,扩大了档案的保存范围,尽可能收集多元数据、全面数据、完整数据和综合数据,关注底层化、碎片化、复杂化的数据信息,能够实现档案数据“应归尽归、应收尽收、应管尽管”,全面完整地保存社会记忆,从而构建一幅大数据时代反映国家和社会变迁的实时全景图,真正建立覆盖人民群众的、满足社会发展长远需要的档案资源体系。

2 档案数据内涵解读

2.1 档案数据与传统档案信息的差异


档案数据既反映了档案形态的客观变化和拓展,也推动着档案管理范式由信息管理向数据管理转型,表征了档案工作的发展变革。相对于传统档案信息,档案数据的不同之处突出表现在以下三个方面。

第一,存在粒度。传统档案信息一次信息居多,依附于传统介质,信息索引方式单一,粗粒度明显;即便是经数字化后的档案信息,也只是中粒度水平,内容检索困难。档案数据形成于数据化的技术环境,相对于“文件”形式的粗颗粒度的传统档案信息,档案数据组织粒度细化,是一个个可以独立存在的数据单元,具有基于文本的数据拆分、组合、关联、交互等细颗粒特性,能够通过计算机进行内容检索和提取,运用大数据处理技术对档案数据进行分析、集成和可视化,挖掘档案数据中的隐性知识、“弱”信息、“暗”数据,形成档案知识元,并对其进行连接、组合,充分挖掘档案数据价值。第二,开发方式。数字时代传统档案信息的“数字化”一直是档案信息资源建设的重要内容,将依附在传统载体上的档案信息变为可机读和在线传输的“数字态”,改变记录和存储方式,便于档案信息的流动与传播,属于“形式控制”。而档案数据则是通过“数据化”,将档案信息变为可精准定位和识别的“数据态”,方便利用计算机进行数据单元的读取、关联、重组和提炼,有利于档案资源的整合集成、挖掘分析、知识组织,满足社会精准化、个性化、知识化的利用需求,属于“内容控制”。第三,价值特性。首先,在价值形态上,档案数据除了兼有传统档案最基本的凭证和参考价值以外,还突出表现在数据价值上,即通过数据技术处理、挖掘和应用获得衍生的价值,如决策价值、预测价值、资产价值、情报价值等,是档案在数据时代的价值新发现。其次,在价值活性上,不同于传统档案信息难以被计算机直接进行内容识别和处理,档案数据作为一种数据资源,便于计算、分析、显现和关联,价值活性较强。最后,在价值实现上,传统档案信息侧重于通过信息查考和信息整合实现其信息价值,满足档案用户的信息需求,如档案查阅、证明、咨询、展览等方式比较机械化和表层化;档案数据由于其数据特性,可以通过数据关联和数据挖掘,建立档案知识库,构建知识地图,使档案信息资源管理和利用的场景从简单的“检索与查阅”转向深层的“洞见与增值”,满足多样化、差异化、精细化、深层化的档案信息需求,提供知识输出和智慧服务。

2.2 档案数据的含义


目前,对档案数据的定义也较少。如马海群将档案数据理解为“档案机构收集保存的所有原始数据。”[19]于英香认为“从内涵看,档案数据是一种具备档案属性的数据;从外延看,档案数据包括电子文档、数字资源等。”[20]刘庆悦等将档案数据界定为“承载档案信息的数据以及在档案信息管理利用活动中产生的数据。”综上,大多学者只是对档案数据进行了描述,没有一个明确的概念内涵。通过档案数据与传统档案信息的比较,将档案数据定义为:“数据化的档案信息及具备档案性质的数据记录。”档案数据应满足以下基本要求:

第一,从内涵上看档案数据首先属于档案信息,具备档案性质,满足档案的所有基本要求。“档案数据”是一个偏正短语,“档案”为“本”,“数据”为“形”,对于档案数据的定义应该以档案作为逻辑起点,切合档案管理范围,故而,“档案数据”一要具备档案的基本属性,包括原始记录性、历史性、社会性;二要具备档案的基本价值,包括凭证价值、参考价值,具有保存意义。第二,从外延上看,“档案数据”是一个广义的数据集合。由于档案数据来源构成的广泛、表现形式的多元,档案数据的外延比较广泛,不仅包括档案部门已经掌握和积累的各类数字化档案资源、电子档案等,还包括具有长久保存价值但还没有纳入档案部门保管范围的数据;不仅包括内容、结构、背景等档案元数据,还包括档案部门在档案管理业务过程中产生的档案管理数据、档案利用数据、档案用户数据等累积性数据。第三,从形式上看,“档案数据”在满足档案性质的同时也满足数据的一般属性。“档案数据”是数据化的档案信息资源,以数据形式记录和保存,能够为数据设备、数据技术识别和处理,这是档案数据区别于传统档案信息的关键所在。

当然,定义一个新兴术语总是一件容易引起学术争论的事情,随着数据社会的深入推进,以及档案学与数据科学、档案工作与大数据的融合发展,档案数据的内涵可能还会出现新的阐释。

3 档案数据的特征形态及其影响

理清档案数据的基本特征,无论从理论上还是实践上都意义重大,不仅能够加深对于大数据时代档案资源的认知,也是探索档案数据管理和治理的基础。档案数据除了具有档案的原始记录性、历史性、社会性等固有特性以外,还具有广源性、共生与互生性、累积性、扩展性与易算性等新特征。

3.1 广源性


信息时代,对于档案存在范围和存在形态的认知不断刷新,档案数据符合多元开放的时代特征,其来源具有广泛性,即广源性。第一,产生环境的广泛性。过去,档案主要产生于现实的物理业务环境,档案文件生成方式单一,数量有限;现在,档案数据广泛地产生于网络环境下的电子办公、电子业务、信息系统、网站网页、新媒体及传感设备等新环境中,更倾向于网络化、虚拟化和数据化,档案文件生成方式多样,生成内容多维,生成形态多种,生成速度迅捷,数量巨大。第二,覆盖范围的广泛性。传统档案资源的收集管理由于受到管理体制、档案馆舍、技术条件、人员配备等限制,主要收集立档单位的档案,档案资源的行政色彩浓厚、覆盖范围有限、结构不合理,社会档案资源、民生档案资源、特色档案资源稀缺。如今,伴随着办公业务环境的电子化网络化、在线归档方式和技术的不断发展,以及档案工作正朝着建立实现覆盖人民群众和社会生活的档案资源体系的目标不断推进,档案数据愈加关注社会发展中的全景数据,无论档案工作体制内体制外、无论宏观微观、无论官方民间、无论正式组织非正式组织形成的档案信息资源,都在档案数据范畴。而且,现代信息存储技术的发展使档案数据存储能力极大提升,未来档案数据无论在存量增量,还是在反映社会面貌的完整程度上都会达到新的历史水平。

3.2 共生与互生性


档案数据就其来源而言虽然泛在而离散,但相关的档案数据本身却构成了一个共生共在的档案数据生态群落和生态圈。一方面,正如“传统数据源通常在最开始就被严格地定义。数据的每一个比特都有重要的价值,否则就不会包含这个数据比特”[25],档案数据百分之百是具有保存价值的数据信息记录,但是单条档案数据的价值密度往往较小,不足以反映问题全貌,发挥整体价值。“在大数据时代,无论是大数据还是所谓的小数据,以及各种各样不同来源的数据,彼此之间往往会存在互相依存和彼此验证的关系,彼此通过互相印证而实现各自的数据价值”[26]。所以,档案数据应当关注以数据集为单位的价值密度较高的多元累积数据,特别在数据颗粒度较细、离散性较大的大数据时代,档案数据的这种共生性特点将体现得更为明显。另一方面,在共生之上,每一条档案数据其价值都与其他档案数据的价值以及其所在档案数据群落的整体价值相关联,每一个基于同一历史活动形成的档案数据在档案数据群落里进行着价值共享和互补,所有的档案数据群落又共同构成了档案数据生态圈,每一个独立分散的档案数据和分割的档案数据群落在档案数据生态圈中都发挥着独特的作用,相互关联、相互依存。

3.3 累积性


所谓累积性,即在累积达到一定程度后而产生状态改变、规模递增、程度加深及价值回馈等现象的演变过程。第一,从数据资源形态上看,在数据化时代社会活动当中形成的档案数据碎片化和细颗粒化明显,每一条档案数据都是反映数据时代真实活动面貌的组成部分,在同一活动当中形成的具有有机联系的数据经过不断累积从而形成数据群组,构成档案数据库。第二,从数据资源规模上看,由“数据”到“小数据”再到“大数据”的跃升,取决于数据累积,海量档案数据资源也正是通过对存量档案信息的数据化,以及有保存价值增量数据的不断采集、积累和沉淀而形成的,档案数据长期连续累积才能达到档案大数据的效果。第三,从数据资源价值上看,由档案数据全集中挖掘出的档案数据价值远大于单个档案数据价值之和,档案数据的累积性也就成为档案数据价值得以展现和提升的重要特性。此外,档案数据的累积性还从某个侧面暗示了档案数据的即时性和易逝性。“大数据时代的数据具有‘实时性’,世界被实时记录的特征使得档案界不得不重视这些稍瞬即逝的具有社会价值的数据的长久保存。”[28]由于数据记录的实时变化、社会活动的不断拓展、技术环境的更新换代及业务职能的更替转型等,档案数据生成变化加剧,如果不及时累积保存,便会造成档案数据流失和消逝,影响档案数据的完整性。

3.4 扩展性


传统档案信息由于受技术条件、存储空间和管理方式等因素的制约,可扩展性有限,档案信息价值难以充分发挥。而作为新的档案资源形态的档案数据,扩展性已成为其重要特质。第一,档案数据体量的扩展性。存量档案数字化的不断推进、电子文件的大量生成,以及网络环境下数据档案资源的爆发增长,使得档案数据无论从数量还是增速上都呈现出极强的扩展性。第二,档案数据结构的扩展性。档案数据的产生环境更趋网络化、数据化、立体化,半结构化、非结构化的档案数据越来越多,如各种格式的文档、图片、网页、社交媒体文件、图像和聊天记录及音视频等,“超文本性”愈发显著。第三,档案数据价值的扩展性。数据管理的发展和数据技术的应用推动产生了新一代的信息增值方式,一方面传统档案信息经数据化处理和加工后,其价值能够得到新的发现、挖掘和展示;另一方面档案数据资源也能得到进一步的组织、赋能和激活,使档案的知识属性和特征在数据管理实践中得到切实的揭示和彰显。

档案数据的扩展性映射出档案新的生成、存储和处理生态,需要档案工作向更高层次扩展。一是档案管理思维方式的扩展。档案数据的扩展性要求档案工作树立数据化思维、信息化思维、技术性思维、共享性思维,以大数据思维而非馆藏档案的小数据思维去思考档案管理工作的发展,营造数据文化环境和组织秩序。二是档案数据管理技术的扩展。“由于技术环境变迁,导致文档管理工作从模拟态的相对单纯的载体管理,转换到数字态对文件尺度信息的整体管理,再过渡到数据态对数据尺度信息的关联管理”[29],所以技术发展既是档案数据管理的动因,也是手段。档案部门要加强档案数据管理技术,包括数据存储技术、数据安全技术、数据关联技术等的引进与应用,提升技术管理能级,适应现代信息技术的发展。三是档案人员素质能力和档案管理队伍的扩展。一方面,档案数据的扩展性要求档案人员从“信息工作者”向“数据工作者”转变,培养兼有数据技术素养和档案管理能力的技术型、复合型人才。另一方面,改变档案管理队伍结构,吸纳数据管理专家、信息技术专家,强化档案数据管理能力。

3.5 易算性


档案数据因其具有数据态的技术属性,使得“信息的处理由相对冗余和庞杂的文件尺度开始降维到更容易解析和处理的数据尺度”[30],相对于传统档案信息具有易算性。根据传统的DIKW层级模型[31],作为基础层的数据,其意义和价值是比较小的。大数据时代,“数据-信息-知识-智慧”的线性价值链递进关系遭受质疑,数据的价值被重新发现,“数据已成为我们这个时代承载人类艺术创意、信息、知识、经验和智慧的基本符号集,是疆域正在急剧扩展的虚拟世界的首选建筑材料。”[32]而这种变化的根源之一,就在于数据具有较强的可编程计算性,在数据技术的支撑下可使其直接跨越信息和知识走向智慧,拥有较强的价值活性,如图2所示。档案数据也具备一般数据所具有的易算性,集中表现在易于被现代算法技术所加工处理,进行信息分析、价值挖掘、知识发现,捕捉潜在、精细、微妙、未知的关系和知识,激活档案数据的一切可能价值。

undefined

图2 DIKW层级模型

档案数据的易算性是提升档案资源价值、促进档案利用和档案信息消费的重要保障。档案数据易算性优势的发挥,一方面需要开展档案数据的结构化处理,将档案文件信息转换成独立于系统与软件、开源兼容、不带格式的纯净档案数据,方便“计算”时数据项的读取、迁移和关联;另一方面需要提高“计算力”,引入本体、模型、规则、算法等数据处理领域的理论方法,充分借助数据技术开展灵活多样的数据组织和数据分析,加强内容管理,通过对复杂、多元、分散的档案数据进行关联、聚类和展示,总结规律、发现知识、洞悉需求、预测趋势,使档案管理走向集成化、科学化与智能化,改变传统档案馆“资源丰富、利用有限、知识贫乏”的格局,为决策者谋划“满意解”“最优解”,为组织机构输出知识产品,为社会公众提供增值服务,全面提升档案服务品质。


注释及参考文献

undefined
undefined

注:本文全文详见《档案学通讯》2020年第三期


撰文:金 波  添志鹏

图片:档案学通讯

编辑:安新宇

undefined

上一条:刘东斌:新修订的《档案法》没有规定档案馆开放“民生”类档案意味着什么?
下一条:栾成显:鱼鳞图册起源考辨