内容检索:
 
当前位置: 网站首页>>学科建设>>正文
E时代的文史研究︱文献数字化与知识生态
2020-06-14 19:48     (阅读: )

受疫情影响,近半年高校等研究单位的师生大都避疫在家,无法正常利用图书馆资源。2020年4月起,“文献挖掘整理研究会”决定举办线上文献沙龙,以助力文史学者更好运用线上资源、推进学术研究。本文摘编自第一场沙龙“瘟疫时期的网络资源”后半场文字稿,探讨日本、欧美与当下中国在数字文献及知识生态的现状,及由此催生的许多新思考与新尝试,以为前车之鉴也好,抑或他山之石,重要的是,期盼国内知识生态有所改善,以激发研究者的创造力。

段宇:近半年由于疫情关系,社会运行出现了一个中断和暂停,树伟兄呼唤中国各地的高校来进行一个数码空间中的联合,这样能在加强共享的情况下,得到和社会尚未停摆时期所能得到的质量相当的数据、保持差不多等量的知识获取水平。
我觉得这是一个非常重要的想法!我是有切身体会的。我所在的学校针对历史系本科生的教学,可以说基本上都是依托学校图书馆现有的纸质资料才能够进行的。最简单的例子,读解史料离不开查词典——我们推荐用诸桥辄次编纂的《大汉和辞典》,这是目前为止最为完备和权威的。而这套书体量巨大,一般的本科生显然是不能,或者说很难具备条件在家里准备一套随时查询。而且远程授课,人人都在家里,来学校查资料变得不再可能,这就使得教学计划出现了很大的变动。虽然说《大汉和》去年也推出了数字版,但每套拷贝起价十余万日元。在这样的情况下,奢望出版社对它进行公开,显然不太现实。这就导致在疫情期间我们没有一个平台,可以在不减少知识品质的情况下,维持教学和学术活动的正常进展。现在所能做的,只是利用现有的网上资源进行一定程度的替代。我们向本科的同学推荐的是这样一个网络资源:“读解文言文用汉字典”。这部词典也曾经被小川环树推荐,面向一般的学生应该也是可以用的。我们利用这样一个线上词典来替代《大汉和》,来完成现在的教学指标。
讨论如何在不降低文献品质的情况下继续研究?这是一个非常有需要、也很值得期待的领域。我特别关注:一是高校间的数字联合;二是线上工具书;三是商业数据库的建设和使用,这都是非常现实,与教授知识的品质直接相关的。这个意义上,书格网站和未曾兄给了我太多的便利,因此我毫不隐藏对未曾兄的尊敬。
未曾:我觉得未来还可以有一个期待,就是博物馆体系和图书馆体系的打通。现在图书馆体系慢慢有成型的东西了。而博物院体系传统上公布的是博物类的藏品,研究书画、器物的学者可能比较感兴趣。但博物馆也藏了很多书,而且有些博物馆藏书的版本很重要,所以,当图书馆藏品被挖得差不多的时候,我们也很期待看到博物馆的藏品。
另外,海外的文献著录和国内的文献著录,我觉得都太简单了。普通爱好者,他拿到一个书目,是没有感觉的。如果有图可以对照,类似图录,感兴趣的人也可以有点视觉上的感受,然后再去慢慢深入,去做相关的研究。
国内,例如北京故宫近年来呈现了许多数字化方面的工作。例如:藏品展示、数字文物库、名画记。特别是故宫名画记,目前公布数量虽然还很少,但是对于文物的呈现非常慷慨,图片清晰度非常高。希望他们继续推进这些工作,而非停留于某次项目需求。
高树伟:我们国家其实投入了很大力量在做两件事情:古籍普查和文物普查。
关于古籍普查,我个人的一点疑问是:为什么在出纸质书的同时,没有同步在“全国古籍普查登记基本数据库”(http://202.96.31.78/xlsworkbench/publish)及时完整地同步公开这些经过仔细校订的数据?(据地方馆的朋友称,普查目录纸质书与普查平台的数据是一致的)之前大家参与古籍普查的时候,每个人都会有一个账号和密码,登录之后,可以看到数据平台上有古书比较详细的元数据,还有序跋、印记等多张高清照片。工作人员做完这个工作,过一段时间,账号密码就失效了,也就没办法再利用这个平台上的资源。当然古籍普查也公布了一个入口,但好像是没有公布与纸质书质量相同的元数据及上传的古籍图像。这些都已经上传了,现在为什么没有公开?其实我比较担心这部分数据。

全国古籍普查登记基本数据库
文物普查是国家文物局在牵头做的一个工作,对于摸清我们的文物家底非常重要。遗憾的是,文物普查平台也没有公开普查积累下来的文物图像。之前,我去不少地方博物馆,比方说一个市级的博物馆,跟他们工作人员聊天的时候,他们也说,确实为文物普查做了非常具体的工作,就是把每一件文物都拍了照片,详细的元数据也都上传至全国馆藏文物数据平台(http://gl.sach.gov.cn/#/Industry/Collection-Collection),但是现在也还没有看到全部图像的公开。
不过通过这两个平台,还是能发现一些对具体研究很关键的材料。

全国馆藏文物数据库
其实,每个地方的博物馆都有自己的一个网站,但在文物数字化及公布的进度上都不太一样。有的博物馆已经都把全部馆藏上网公布,有的博物馆可能公布的慢一点。当然,如果通过这个平台能够定位到具体的信息,假设你通过文物普查平台检索,知道自己需要的某件材料在某个馆,不妨去这个博物馆的官方网站看一下,看这件东西有没有公布,这也是一个比较重要的线索。
学术界对图书馆的馆藏相对来说更熟悉一些,但对博物馆系统的藏品忽视太多,原因就是两个地方的开放程度不一样,而且我们很少通过文物普查这个平台去追踪一些线索。即使找到了,以目前博物馆的管理模式,研究者也无法看到。这让我想起我在某个夏天的真实经历,某博物馆藏有一部黄丕烈等人批注的毛氏汲古阁刊本《周易集解》,我事先打电话跟该馆核实能否去看,那边答应以后,我随即买了车票专程去看,到那边以后,工作人员以馆长出差为由,拒绝提供阅览服务。返京以后,我曾与关心这部书命运的几位研究者聊天,发现他们在我之前在该馆也遭受了同样的冷遇。
这使我想到,文物、古籍普查这两项重要工作积累下来的成果,希望最后都能开放给大众,即便不能给公众开放,也应该开放给学术界。这样大家共同面临一些困境的时候,在家里就能够把自己的研究再往前推进一些。开放文物、古籍电子资源,让真正关心它的人去自由获取、研究,或许是使文化繁荣、让文化走出去最简便的路径了。
未曾:我觉得现在联合著录很重要。欧洲有一个联合著录的体系,日本也有一个,包括段宇兄说的国文馆(http://base1.nijl.ac.jp/~wakosyo/),日本很多图书馆的信息都在里面。我经常在这里检索,不过它的资料格式标准不太一样。比如说东京艺术大学的数字化就特别好,我也特别喜欢,这个量是很大的,它更新频次也是很快的。
美国有两个网站,一个叫文档的网站(active.org),它有大量的古书,还有一个Ha打头的网站(hathitrust.org)。这两个网站有很多书籍。台北“国图”也联合注入了美国国会图书馆的古籍资源。现在我看到他们新的网站(http://rbook.ncl.edu.tw/NCLSearch/),连哈佛、中国国家图书馆的资料也著录了,但不详细。
我看台北故宫博物院和台北“国家图书馆”,他们自己著录本馆东西的时候,著录非常详细。我看国内还没看到那么详细的。包括序跋、印章,包括什么刻工啊,他们基本上都有很细致去处理这些信息。还有一些版本,哪些配抄哪些卷哪一页。我觉得他们的工作做得很细致,这个也是我自己学习的东西。看到人家的东西,再看看自己的东西,觉得差距就得慢慢补。
我的优势,我是希望还是给到大家,给别人拿到一个东西可以讨论的一个空间。我觉得用户还是可以在下面讨论的,有些东西你著录是一说,用户看到他的感觉又是另一说,我觉得著录也不一定是权威的。
段宇:我回应一下未曾老师刚讲到日本图书馆检索和资料格式标准的问题,其实这与日本的整个环境相关,它并不致力于做出一个向社会公开的统合性的索引,各个机构总是各自为战,是有传统的。
从传统来说,第一他们对待文献和我们不一样,他们是秉承了“书志学”的范式。一言以蔽之,研究对象是特定的文献实物。换句话说,他们对于所藏的书本本身的兴趣更甚于对所记载的文本的兴趣。我们的文献学包含了目录版本和校雠这几个部分,寻求优质的文本载体,即善本。在日本,书志学人的追求却不是这样。举一个例子来说,他们有种保存文本的方式,通过这种方式制作的副本称为“影写本”。这种制作方式说起来也很简单,就是用纸蒙在原本上精心临摹原文字迹,以求表现原本风貌。这使得制成的“影写本”不仅仅是原本的副本,文本相同、能在传播上能够替代,实际上它还是展现原本特定时期风貌的替代品——在临摹时,原本上面的虫孔、水渍、墨迹等等,都会原模原样地通过绘画给复原出来。这种精心摹绘的本子,据统计现存有近7000部,医史学者真柳诚把这种影写誉为“江户绝技”。

江户晚期影写本:宋本《外台秘要方》
当下,这个传统当然也有新的变化,并且体现在所做的数码文献中。注重存真、以实际掌握的文献实物来说,这个无言的想法体现在将文献数字化的阶段,就会导致他做出来的这种数据库,更接近一个以实物为标的数据库,ERM。传统决定了数据库的形式,而又是这种数据库的形式决定了他们的网络文献分散而丰富,两个看似对立的情况放在了一起,非常符合《菊与刀》的叙述方式。
另外需要提及的还有一点,这与安倍政权的文教政策有关。安倍政权所进行的大学改制的影响是十分深远的,最终影响可能要在百年尺度上才能看清楚、并且由整个民族来买单。其中要说的一条措施就是,提倡竞争性的研究资金以取代之前普惠性资助大学的研究资金。如此,政府作为发包的总包方,然后学者依托各大学来进行投标竞标,在中标后按期完成学术“工程”后交付验收。然而,全面推行这种竞争的项目,这对于学术本身的影响是不可忽视的。以文献数据库来说,就会造成如下的几个问题:第一是数据库的后续维护。科研项目结项以后,竞争得来的课题资金即告断流,后期对于数据库的维护和升级往往因为缺乏资金支持而草草收场。第二,以研究经费的分配来实现在学术领域加强竞争的导向,这多少导致竞争扩大,使得各机构更加强化画地为牢的心态。反映在日本数码文献的现状上,在短期内,很难想象他们能做出一个总揽全局的引擎,能够统合各家的数码资源、提升用户的搜索和利用效率。现状体现的是科研体制所存在的问题,这些情况的发展还要看进一步的政策导向才能明朗。而对我们来说,日本的这些情况可以看作前车之鉴,也可以看作他山之石。了解日本在文献数字化发展中所面临问题的前因后果,知其所以然,才能避免重蹈覆辙,挖出一条更有效率的道路。
高树伟:中国国家图书馆最近也发布了新的网站(http://read.nlc.cn/user/index),公开了一些普通古籍。另外,日本宫内厅(http://db.sido.keio.ac.jp/kanseki/T_bib_line_2.php),也陆续上传了一些重要的像类书之类的宋元本图像。
张昊苏:今天我们主要谈了文献的挖掘、整理、研究,三个词要解决的问题加起来之后,或许可以代表我们对数字人文、对e时代资源利用与研究的关注。
在文史领域、文献学方向,考据研究的地位重要,对文献检索、资源获取的需求很迫切。再深一层,E时代文献获取技术的改进、方法的变迁,已经改变了我们学习、研究的传统路径,而且还影响我们对文献本身的认识、知识框架与知识系统的建立,乃至于文史研究方法、研究范式的转换。这对所有学科可能都适用。
比如,过去从事考据学研究,一定要学养非常深厚,积累很多年的札记、卡片,才能在解决问题的时候游刃有余,而现在可能有变化。如果熟练掌握检索技巧,并且具备提取检索关键词的能力,是很可能在短时间内做出超出前人的考据成果的。因为,目前可供检索的古典文本当超过百亿字,这是前人无法享有的优越条件。
也包括一些工具性的研究,比如,陈垣所编的《中西回史日历》一类工具书,在当时堪称绝学,功力之深湛与体量之庞大均是有目共睹,嘉惠学林不浅,而今天完全可以用电脑技术代替,或者至少说是大大提升效率。这其实隐含了一个学术判断的潜在路向:在过去某些可能是“绝学”的高难度研究,在今天,重现的难度要低很多。那么,我们的学术研究、学术评价标准应该往哪里去?是不是也有可能与之前展示出不同的面貌?
比如说,从抄本到雕版,不光是有便利的一面,在苏轼看来,也影响到当时人读书治学的风气和习惯。我们现在也是如此,有一个流行的词叫“遥读”,或者“远读”(distant reading),这个一定是信息爆炸时代才会产生的:阅读、研究大数据,只能观其大略,不求甚解。而这种接受知识的方式,跟传统的读书治学差别很大。利弊何在?也许值得进一步研判。
各位还有哪些看法?
段宇:其实作为我的观感来看,加入文献挖掘机学校也有一些年头,在这一期间我受益良多,也常常反思自己的所得。这特别体现在数码时代能够实现的研究者之间新型的人际关系。我为什么会意识到这个问题?两年前,我和一位日本学者去北京考察,当晚我和这位老师说,我约了树伟兄和昊苏兄见面,平时我们在网上经常聊学术话题。当时那位日本学者就问我,说你们平常交流这些学术问题,都怎么见面?我回答说其实这是和树伟兄的初次见面,不过我们一直在研究的方向、方法上面讨论的很多,相互影响也很深,并进一步介绍了曾相互讨论的一些话题和受此影响的成果。这位学者对此表示惊讶,表示这种基于即时通信的人际关系以及这种关系对学术可能造成的影响,他在以前没有设想过,在眼见为实以后感到很惊讶。表示看到这样的发展,可以认真考虑当前的信息技术给学术带来的影响,而进一步思索学术的未来。
当然,听他这么说,我也很震撼。如果浅薄一点,可以说我对他做法守旧、不愔现代生活而生出陌生感。因为作为我们来说,第一是我们这些成员从爱好者到专业研究者慢慢发展的一个历程。第二也是同一批人以互联网媒体为媒介慢慢走向学术前台的过程。这两个过程都在即时通信软件造就的新型人际关系之下。乐观地说,我们各自的想法,然后在讨论和交流中继续坚持这样表达和相互促进的话,我们的共识往后或许会对之后的时代能够有一些影响。
然后我最期待的其实是什么?是我们能够开拓创新的研究方式,而不仅仅局限在扩展研究的内容方面。毕竟,现在的互联网时代,批评互联网有一个很大的声音,是说现在虽然有了海量的资源,但是对这些资源的利用效率并未同步提高,反而在这些资源面前迷失了方向,把掌握资源当成掌握知识本身。我觉得我们应该就是在依靠互助掌握文献的基础上,能够在自己的方向上深度挖掘,同时去干点大事情。这样对于大家来说都是非常有意思的。
保持现在的沟通频度和深度,小范围内从共识发展范式;大范围内铺展共识。
高树伟:作为一个民间云组织,学会其实是对现有数字化成果不满的一个反弹,也不是说非要独立出一个东西。我不知道大家有没有这种感觉,就是说在做研究的时候,大家会非常独立,很少有深入交流,或者与同行深入交流的机会不多。尤其在资料方面,好像也不太交流沟通,我们这个平台的目的可能就是为了打破这样一种寂静,在资料方面,大家能够互通有无。很多老师讲过,现在已经没有资料方面的权威,我觉得其实还是有一点的,就是你掌握计算机技术的能力和你获取资源的效率,以及如何去更深层次解读一些材料,都会关系到你的研究。随着数字化环境越来越好,未来肯定在材料占有方面应该不是什么大的问题,但是在这个过程中还是会遇到一些具体的,就包括效率、时间方面的问题。
通过这个平台提供交流的一些机会,大家好像都不太习惯去主动学习技术层面的东西,或者人文学者是有这种天然的屏障,很难去很短时间内去掌握一些技术,获取一些资源,大家都比较习惯于伸手获取一些材料。这样的话,我想在学会这个团体里面,大家伸手也没关系,能够掌握更多资源的师友就相对倾斜一点,让资源能够流动起来。在这样一种环境中,大家可能会感受到现有电子资源环境的一种优越性,起码在资料占有方面会有很不一样的感受。我不知道大家在做研究的过程中有没有在找一本书会或者会找某些材料过程中遇到特别大的困难,时间拖得很长,最后把自己的研究热情都拖没有了。我想是会面临这样的情况,特别是一些刚开始做研究,前期遇到的困难还是比较多的,尤其是资料方面。
未曾:我主要是考虑怎么引导,我觉得其实大家刚开始的话,包括我自己以前找文献,早期因为我不是这个专业的,找很多东西刚开始就是乱翻,就是翻到哪儿是哪儿。后来我有相关的积累,我才会看版本或者相关材料。我对比各种看到的。可能我发一本书,可能会挑几个版本的东西,我再总结发布一个版本。我目前是希望减少用户的筛选。我尽量给用户最优的几个版本,这是我个人的一个选择,虽然用户他也可能需要更多的版本。当他研究多个版本的时候,还是需要一些我所谓的不太好的版本,它们(被我忽略所谓不好的版本)肯定也是需要的。用户可以给我提供相关版本其中的价值,我们也是可以去做相关整理或者推荐的。

本文转自:澎湃新闻 责任编辑:于淑娟

上一条:书单:厦门大学历史学基础学科拔尖学生培养计划必读书目
下一条:视频 | 天下遗珍:清代南部县衙档案