近些年来,全球史学界和图书馆界掀起一股构建历史数据库的浪潮,主题、形式各异的历史数据库层出不穷,研究者所能掌握的史料规模呈现出巨量增长。如何做到既有量的增长,又有研究方法的提升,特别是发挥数据史料的特点,形成比肩甚至超越过往纸质史料利用深度和效率的研究,推动学术发展,便成了亟待探索的新问题。笔者认为,“互联”“互通”是互联网的重要特点,历史数据库的构建与研究,应重视数据库自身信息的“内连接”和数据库之间信息的“外连接”,以尽可能地实现“数据追踪”,由此方能发挥电子数据的优势,推动新技术环境下史学研究的深化发展。
历史数据库的“内”与“外”
“内连接”和“外连接”本是信息学科针对关系型数据库(relational databases)进行数据查询、分析时所采取的方法,本文将此概念移用于历史数据库的构建与研究。“内连接”主要包含两层含义:一是指某一数据库在建设时力争利用多来源史料中能相互匹配的信息,进行信息连接以扩充数据库内容;二是指利用某一数据库进行研究时,应注意其中信息的相互连接,以拉长研究的时段、代际或扩大空间范围等。“外连接”主要是指不同主题但内容、关系等方面具有连接可能的数据库,在开放的前提下,实现相应数据信息的连接,从而突破单一数据库主题明确但信息范围相对局限的制约,从学术研究层面真正实现数据库建设与研究的“共享”与“共赢”。
历史数据库信息“内连接”与“外连接”的最终目的,是将存储于各主题数据库中的相关信息逐步从静态推向动态,实现“数据追踪”。如利用多种材料或不同数据库的互相连接,可以连缀起个人和某些群体不同时间节点的信息,形成一种动态化的“追踪数据”。“追踪数据”的形成,使得某些历史人物甚至群体的经历更加丰富或连续起来,这对理解和研究历史人群的社会行为具有极高的学术价值。
连接不同史料与信息
即便是单一主题的历史数据库,其包含的具体史料也是规模庞大、类型繁多的。这些史料中的某些信息是能被连接起来、形成数据链的。如“中国近现代思想史专业数据库(1830—1930)”收录了多种晚清民国的报刊和个人著述,总字数达到1.2亿。一些学者通过检索的方式和统计工具的帮助,将某一具体概念或思想主题(如“主义”“青年”“民族”等)连接起来,从而能够分析这些近现代史上重要概念的形成与历史演变,“验证”或“突破”了既有的研究结论,实现了学术创新。
人物主题数据库是较为常见的一类历史数据库,通过内部连接,往往能够形成以人物为主干的信息链条。笔者正在建设的“民国大学生信息数据库”,即是以个人基本信息为基础的数据库。数据库中每一名学生的信息既有个人自身的,也有家长和保证人的。通过数据库内部连接计算发现,很多家长本身也是大学生,能够连接形成追踪数据,进而获得三代人的基本信息,这为中国近现代史上多代际教育获得与社会流动研究提供了坚实的数据基础。以亲友为主的保证人通常是学生最主要的社会关系,将不同学生的保证人信息进行连接,可以发现很多学生具有同一家长、共同亲友,也就挖掘出了学生的家庭、社会关系网络。
连接不同主题数据库
中国历代人物传记资料库(简称CBDB)的领导者、哈佛大学教授包弼德指出,随着“数字人文”的发展,历史数据库的建设大为增加,数字数据(史料)迅速膨胀,数据生产者之间的协作也就越来越重要。通过数据库的开放和协作,形成不同主题数据库的信息连接,是其中最能发挥数字数据优势、推动学术研究的一种方法。
“民国大学生信息数据库”收录的虽然主要是民国时期教育精英的基本信息,但数据库中早期学生的家长,往往上溯到晚清时期。香港科技大学教授康文林领导建设的清代《缙绅录》数据库,包含整个清代官员信息,其中有一些光绪、宣统年间的数据,经过计算能够与“民国大学生信息数据库”中的学生家长信息进行匹配,这对理解民国大学生的家庭来源以及近代教育转型对家庭的影响都颇有助益。而《缙绅录》数据库本身又能够与CBDB数据库中的明清人物、进士题名录等材料连接起来,这些官员人物的个人信息也由此大为丰富起来。
“外连接”还可以应用于主题数据库与大型电子文献数据库的连接。越来越多的报纸、期刊乃至各类史料文献都在被逐步电子化,这类文献数据库中蕴含有大量的尚未结构化的历史信息。虽然多数数据库只提供开放检索而不能进行后台数据的直接抓取,但依靠手动检索和比对考证,还是能够与一些主题数据库实现系统性数据连接的。“民国大学生信息数据库”收录了1929年前清华大学全部的庚款留美生。这批留美生是民国时期最为成功的留美者,梳理他们的职业发展轨迹,对理解民国社会发展和近代化转型等问题意义重大。但即便依靠“内连接”,主要是清华校方1920—1937年间多次出版的《同学录》等材料,依然只能获得60%留美生的唯一职业信息。而通过与目前已开放的各类近现代报刊数据库(如上海图书馆的“晚清、民国期刊全文数据库”)、现代出版物数据库(读秀、超星等)等,手动逐一检索每位留学生,能够连接上大量的职业信息。到目前,留美生的平均职业属已经从0.6个上升到7个左右,这为研究清华留美生的职业发展及其与中国近代化的关系等问题提供了可能。
数据追踪成为重要研究方法
这些研究实践让我们体会到,过去学界多认为利用数据库进行史学研究,最重要的优点是对史料的大规模使用,能够“广”而“全”地使用史料。现在,随着越来越多的数据库被建设起来,并向学界开放,数据库之间进行数据的各种“连接”的可能大为增加,“数据追踪”越来越成为数据库研究的重要方法。数据库研究的特长,不仅能够“广”而“全”,也越来越能够“专”且“深”。
在进行历史数据库数据连接时还有一些问题需要注意。对“内连接”而言,数据连接必须合理和可靠。比如一些人物关系型数据库的数据连接,因为同名现象的普遍存在,研究者显然不能仅仅根据姓名这一单一信息进行连接,更何况同一人物也可能存在多个姓名(字/号)的问题。研究者需要在尽可能设定如年龄、籍贯、毕业学校等限制性条件的同时,还要进行必要的人工复检。
对“外连接”而言,数据库的开放至为关键。不仅是前台数据检索的开放,更需要后台接口的开放,这样研究者才能植入相应的软件程序进行数据提取、分析等工作。香港科技大学李中清、康文林研究团队的中国多世代人口数据库(CMGPD)、哈佛大学包弼德领导的CBDB数据库等都实现了这样的全面开放,但目前能如此做的历史数据库还很少。这是因为不仅数据库开发工作的成果认定尚缺少明确的学术标准,数据库开放后的知识产权保护更是难题。不过,当前在自然科学和生命科学领域,已经建设起研究数据共享的规范,这对社会科学和人文学科的影响正在逐渐凸显,越来越多的学术基金和学术期刊已经逐渐要求研究者提供原始数据。如果说,最初希望数据公开的动因是检验已经发表的分析结果,现在,学界则越来越意识到共享数据还有更重要的目的:一是数据库开放后,其他研究者可以用来进行完全不同的课题研究。这或许与数据库建立者的初衷不同,但无疑提高了数据库的使用效率;二是与其他数据库结合,构建覆盖范围更大的数据库。随着这种认识和数据库连接的重要性不断为学者们所接受,学术界应尽快开始讨论、制定数据库开放标准和成果保护准则。
(作者单位:南京大学历史学院暨数字史学研究中心)