沈固朝：期刊评价与学术评价中的CSSCI-孔府档案研究中心

欢迎光临本网站

沈固朝：期刊评价与学术评价中的CSSCI

2019-07-19 22:26 沈固朝青年史学家 (阅读: )

作者信息：沈固朝，南京大学信息管理学院教授，博士生导师，曾任南京大学社会科学研究评价中心副主任。

2017-2018年度CSSCI来源刊目录的发布再次解开了潘多拉匣子，各种问题和评论如预料扑面而来。无论是调侃式的吐槽、无奈的叹息还是冷静的分析，都从一个个侧面重复着多年的“老问题”。“学界被影响因子绑架”、“引文成为标准的理念和体系”、“量化的学术评价标准是架在学者身上的枷锁”，“请‘核心期刊’走下神坛”等等声音可能有一定的代表性。以“影响因子神话”为关键词搜索一下网络，还会发现同一用词的不同用意，一种是介绍刊物如何通过吸收优秀稿源、拓展独创性科技论文发表的“快速通道”、培养专业编辑队伍、与科学家直接对话等等获取期刊的高影响因子¹；另一种是鞭挞期刊影响因子的操纵行为，呼吁“去魅”、“打破神话”，或提高计算的科学性。²

国内有多种评价工具，无论哪一种，发布其目录都会引发学术界大小不同的“地震”，这在国际上是少见的。笔者今年利用接待来访和期刊界大小会议，多次呼吁全面和正确地看待期刊评价工具。所谓“全面”，就是既要看到评价工具的有利一面，也要看到不足一面；在使用过程中要关注它的问题，要看到引用的不同动机及其复杂性所造成的“引文率”被扭曲的问题。所谓“正确”，就是要客观地评价引文索引的作用，既不夸大，也不贬低。引文分析当然不是解决所有评价问题的万能钥匙，但研究表明引文统计分析的结果与使用单项或多项定量、定性评价指标的评估结果有很高的相关性，经过长期和广泛的实践检验，迄今还没有更有效的工具取而代之。³将它“神化”的原因，是在使用中将高引用与高水平等同了起来，将影响力与创新力等同了起来，将来源期刊收录标准与学术评价标准等同了起来。量化的指标不是期刊影响力评价的全部指标，也不是期刊质量高低的唯一标准，更不是学术评价的衡量标准。但这种呼吁只是一种期望。正如编辑朋友们调侃，说得不错，可没有用！

那么，出路何在？响应“旧金山宣言”，在科研评价中停止使用基于期刊的计量指标，如期刊影响因子？⁴或者遵循“莱顿宣言”的原则⁵，“请‘核心期刊’走下神坛”？

笔者怀疑，在不触动评价体制的情况下单纯取消工具，不仅无助于解决问题，还会把暴露的问题又重新掩盖起来，因为产生问题的土壤还存在。我们的视线不能仅仅停留在表象和问题上。笔者愿借助此文再谈一下对这些问题的一得之见。

01一、引文索引的本质是检索工具

自引文索引的先驱、美国1873年出版的供律师查找判例的检索工具——谢泼德引文（Shepard’s Citation）问世以来，引文索引已经走过140多年的历程。期间，尤金·加菲尔德（E. Garfield）于1963年编制的“科学引文索引”（Science Citation Index）以及于1973年、1978年分别创办的“社会科学引文索引”（SSCI）和“艺术和人文科学引文索引”（A&HCI）影响最大。

这种索引利用文献中普遍存在的参考引证现象，为人们提供了一种新的查找文献的方法。如果到Web of Science的站点浏览一下，可以发现，绝大部分栏目都是在介绍如何利用各种检索功能去跟踪研究趋势，如何查找作者、刊物和高质量的论文，如何通过文献之间的引证关系从前人的著述中获取所需的知识，了解科学研究的发展脉络和思路。在SSCI板块，读一下“为什么要利用SSCI”（“Why SSCI？”），在所介绍的五大功能中，只字未提学术评价。同样，中国科学院文献情报中心于1996年、南京大学中国社会科学研究评价中心于1998年先后建立的CSCD和CSSCI不仅最初是以检索工具的面目出现，直到今天这两大文献数据库的界面展现给读者的仍然是各具特色的检索功能。

说引文索引是检索工具而非评价工具，不是旨在为种种问题开脱，而是说明这种工具一开始就不是为评价而设立的，无论是期刊评价还是学术评价。CSSCI与其他评价工具的不同之处，在于它只能用自身产生的数据，如果要进行评价，还需要搜集其他数据，建立其他指标，特别是定性指标。可以说，南京大学中国社会科学研究评价中心长期以来主要是在进行数据加工，在少数情况下依据用户要求承接过一些引文分析项目，但它尚未从事过真正意义上的人文社会科学研究评价。

在引入全文检索之前，引文索引是标准的二次文献。与普通的文献检索工具相比，引文索引库是经过科学地筛选后确定的世界范围内自然科学、社会科学和人文科学方面的重要期刊的综合性、多学科、具有权威性的文摘类检索数据库。它既可以从篇名、关键词、文摘、著者、来源期刊、机构、地址等角度检索世界范围的各学科重要期刊文献信息，也可以查阅普通检索工具难以查检的某些交叉学科的资料。引入全文检索之后，引文检索“检”（线索）和“索”（取原文）的界线消失了，两大功能在数据库中合二为一，使学术服务工具的特点更加突出，分析的功能得到了进一步发挥。

例如，若来源文献A和来源文献B都引用了文献C（A和B的引文），则C就是文献A和文献B的引文耦。引文耦愈多，其相应的来源文献之间的相关性愈高。很多人将引文索引视为评价工具，忽略了引文索引的特殊检索功能，这实在是使用这类数据库的一大损失。仅就期刊编辑而言，无论是选题还是组稿，甚至在审稿时借鉴相关的研究，引文索引都是非常好的帮手。文献之间的引证和被引证关系所揭示的研究专题之间甚至作者之间存在的某种内在联系，不仅指明了与读者需求最密切的文献线索，而且包含了相似的观点、思路、方法，反映了科学交流活动，显示了科研成果之间、刊载文献的期刊之间以及文献所属学科之间的内在联系，使许多论文有机联系起来，构成论文网、著者网、文献网，这是引文索引最初及至现在的最重要价值所在。

以后西方在综合性引文索引的基础上又进一步细化出了专科引文索引，如“生物科学引文索引”（BioScience Citation Index）、化学引文索引（ChemScience Citation Index）、临床医学引文索引（Clinical Medicine Citation Index）等。ISI还将Web of Science与其他数据库连接起来，如与ISI化学服务数据库（ISI Chemistry Serve）、德温特发明索引（Derwent Innovation Index）、美国国家生物技术中心（NCBI）基因库（GenBank）等连接起来，从而使用研究人员能够清晰地了解学术研究中心所涉及的专利，推动科学研究迅速转化为生产力。

· 02二、引文索引的选刊和评刊作用

当引文索引在国内推广开来以后，期刊评价这一索引的附加功能逐步受到了重视。体现评价功能最明显的依据是根据文献计量学原理编制的“期刊引用报告”（Journal Citation Reports，JCR），即对每一份被收录期刊用以下的统计数据进行分析：通过影响因子评价和比较一种期刊相对于同学科中其他期刊的影响力；通过即年指数（Immediacy Index）比较同一年内期刊中的论文被引用的频率；通过被引半衰期（Cited Half-life）反映被引论文价值的持久性；通过引用期刊列表（Citing Journal Listing）及被引期刊列表（Cited Journal Listing）反映引用某特定期刊的频繁程度；被引频次居前20%的期刊包含了SSCI期刊总被引频次的70%以上，即较少的期刊包含了大多数的被引频次。这被称为20/80定律可为图书馆藏书建设提供选刊依据，可为学者高效率地获取所需学术论文提供参考，亦可为建设特定专业期刊网络提供信息源。

引文分析及其相关的研究引起了图书馆学界的重视，引发了以文献计量学理论为指导的期刊研究热潮。据南京大学博士生彭玉芳统计，1998年至2016年9月17日，知网总共有756篇文献与引文分析相关，平均每年发文量为39.8篇。尤其在2008年至2011年期间，引文分析作为重要的评价工具，对整个学术界、期刊界产生巨大影响。从这些文献使用的总共1148个关键词来看，引文分析涉及期刊评价、机构评价、科研评价、研究方法评价、人才评价、数据库评价、学科评价、软件评价、引文评价、核心作者分析、期刊影响力、学术声望等。当然，反对和质疑的声音也开始出现，相应关键词是：同行评议、自引率、引文动机、计量评价模式、引证动机等。

当然，文献计量工作者毫不避讳用计量方法进行期刊评价的缺陷。SSCI期刊的学科地域分布是极不均衡的，不同的国家有着各自独特的历史文化背景和意识形态，社会科学研究取向、学术成果交流方式受地域性限制较大，这种不均衡现象使其作为社会科学的国际可比性指标的公正性大打折扣。⁶CSSCI用与引证相关的影响因子指标来评价不同引证习惯、不同学科论文的综合性刊物，也具有不可比性⁷。由于各学科专业期刊影响因子的差别，以及来源期刊被作为“核心期刊”而人为地限制了其数量，使那些引用局限于较小领域的刊物入选极为困难，有的甚至再怎样努力都没有可能。

即使评刊，也有基于形式的定量评价和基于内容的定性评价两种方法。依笔者之见，引文索引作为评价工具，到目前为止还主要是一种基于形式的量的比较（如论文的聚类度、相关度、规范化、价值的持久性等等），而非对期刊学术价值的质的评价。

之所以称为“比”而非“评”，是因为第一，评审的对象是一系列反映被评客观实际状况的数据，或可供相互比较的信息（可比性原则）；第二，被比较的各刊处在同一个层面之上（相容性原则），因而对“同质”的关注多于“异质”；第三，要求在评价中彻底摈弃各种“己见”或“学术偏见”，坚持一种多元或中性的立场（平等性原则）；第四，在具体操作上，要求评价人员尽可能遵循国家或国际上统一规定的统计口径和数据处理方法，尽可能减少数据处理的主观选择范围（可操作原则）。这些恰恰都是比较的特点。

根据上述原则所“比”出的高与低、多与少、强与弱、优与劣等等，得出排序。显然，这种“评价”与基于内容进行价值判断的“评价”是有很大差距的，它甚至不要求“评价者”能够读懂被评对象的内容，只要求掌握数据处理的方法。评比的目的是促进竞争，评比的过程具有博弈的特点，评比的结果是将量的大小作为质的高低的参照。这种方法的优点——避开了基于内容评价所带来的的非共识性、耗时性和难操作等缺陷，因而受到科研管理机构的欢迎，尤其在分配紧张的学术资源时，它是解决矛盾的有利工具。尽管我们可约定俗成地用评价一词涵盖几乎所有的评议、评判、评奖、评优、评级、鉴定、考核等活动，但区分基于量的比较和基于质的判断，有利于了解各自的优点和局限，避免混用和互相取代。名为评价实为评比，就可能将一些不可比或难可比的要素排斥在外，用统一的标准来比较不同研究对象、不同研究方法、受不同传统习惯的影响而表现出的不同形式的学术研究成果及其特点各异的表述方式，其公平性就很难掌握。

还需要指出，来源期刊的遴选并非全部都是定量方法。从编辑选稿、同行评议、主编定稿到最终由各学科代表组成的指导委员会或学术委员会审定，以及部分学科在遴选前的问卷调查都可视为基于内容的定性评价。读者引用本身就是在众多论文中选择（或称内容评价）的结果。这是来源期刊产生的前提和基础。它之所以被戴上“量化的学术标准”的帽子，也许是因为最终决定排序的两个指标——他引影响因子和被引总数（总被引频次）是定量指标。但这种指标，所依据的是在大样本数据基础上总结出来的各类学科文献交流规律，并非专门针对文科、理科或某一学科。引文索引统计源的规模样本保证了它的总体数据的可靠性和公正性，十几万篇论文的数据量是任何抽样调查和同行评审都做不到的。少数失范行为很难扭曲它在总体上的公正性。

实践也证明，无论在哪一种评价工具中，绝大部分口碑较好、价值较高的学术期刊都收录在其中，只是排序稍有不同。在这个意义上，期刊影响因子在评价学术期刊、推荐学术论文方面所提供的参量，是具有统计上的借鉴意义的，但只是作为影响力大小和变动的参照，不宜作为期刊质量高低的标准。正如健康检查，其影像或化验的报告给出的数据仅是某些健康指标的信号，报告上的结论也只是“临床印象”，疾病或健康与否的定性结论，只能靠医生结合其他指标和经验作出判断。

· 03三、被视为学术评价工具的引文索引

无论是从事学术研究的学者、攻读学位的学子还是从事科研管理的工作人员，在论文开题、确定选题、申报项目时往往需要解决下述问题：

如何在前人研究的基础上进一步推进研究？如何防止重复研究？如何了解有影响的学者？怎样知道人文社会科学研究的热点与发展趋势？怎样知道某一观点或研究的演变轨迹？我国人文社会科学眼就所产生的的有重要影响的学术资源在哪里？各学术机构的学术地位及影响力如何？能否根据论文的引用文献类型、类别等来考察各学科的研究特点、学者的阅读和资料利用趋向、学科发展的成熟度，等等。

就上述问题，笔者将学术评价分为宏观或中观的评价，以及微观的、对个人学术成果的评价。几乎所用引文索引库的优点都赋予了它们回答前一类评价问题的能力，即：通过各学科论文的关键词数量以及关键词的变化趋势，考察各学科研究热点和研究趋势；通过各学科论文引用期刊的数量、期刊的影响广度、半衰期以及期刊影响因子可评价各学科期刊的影响力；通过对机构、地区的发文和被引统计分析得知机构和地区的学术影响力；通过对机构篇均被引数据可分析机构成果的整体影响力；通过论文和著作在某一学科的被引数据统计分析，给处在这一学科学术影响最大的论文和著作的学术影响的评价；通过这些论文和著作的主题可考察学者关注的问题。Web of Science在2004年提供检索“结果分析”（Analyze Results），分析的选项包括作者分析、国家或地区分析、文献类型分析、机构分析、语种分析、出版年分析、期刊分析、主题分析。依据在不同的选项中的文献量的降序排列来实现对检索到的数据集合的量化，如前10位、前25位……前500位，也可以根据特定的需要进行大量的人工操作以满足深入分析的要求。同时，通过开发数据库的链接功能，研究人员可以获得某些论文的全文。在这个意义上，引文索引数据库可在宏观和中观层面上服务于学术研究，但在微观层面上，难以对个别学术成果的学术价值进行评判，只能通过被引用情况了解个人的学术影响力，为内容评价提供某种借鉴。

期刊评价工具介入学术评价有它产生的环境和时代因素。它之所以能够在上世纪90年代“热”起来，越来越深、越来越快地介入了学术评价，缘于某些流于形式的专家评议使得同行评议失去了往日的地位和作用⁸，当时对单一的学术成果定性评价的抨击不亚于今天对量化评价一统天下的责难。未解决评价中的矛盾、减少“主观因素”的干扰而产生了量化学术评价的需求。而SCI的引入推动了高校和科研机构的排名，科研与利益挂钩的激励机制以及随之而来的科研行政管理的强化，推动了由排名产生的“学术榜”效应，易用性又进一步强化了这种效应。

但毕竟期刊评价和学术评价是两种性质、对象、目的和方法截然不同的评价，它的合理性往往掩盖了它的不合理性，不妨套用“存在即合理”这句哲学名言，看一下何以期刊界在评价中“缺位”（笔者谓之“办刊者不评价，评刊者不办刊”），以及期刊评价和定量分析被“越位”用于学术评价。

以学术评价的内容之一——作者研究为例，美国人很早就开始了这一探索。1926年美国学者洛特卡（A. J. Lotka）在著名的《华盛顿科学院报》（Journal of the Washington Academy of Science）上发表题为“科学生产率的频率分布”（The frequency distribution of scientific productivity）的论文，旨在通过对发表论著的统计来探明科技人员的生产能力及对科技进步和社会发展所作的贡献，也开创了用定量方法探索科学文献数量与作者数量之间的关系。

此后，洛特卡的研究经科学史学家普赖斯（D. S. Price）的补充，确定了从发文量筛选科学界核心研究力量的普赖斯定律（Price Law）。但这个定律没能揭示科研成果深层次的“质”，即多产作者群不等于核心作者群。随着研究的深入，加菲尔德在上世纪50年代不仅开创了从引文角度追踪科学发展动态的新方法，而且与普赖斯一起在引文索引的基础上发展了引文分析技术，并用于评价科研成果的质量和影响力，进而测定某领域的核心作者群。2005年，物理学家乔治·赫希（Jorge Hirsch）提出h指数的新思路，避开了以往的指标只倾向于科研人员发表论文的期刊这一缺陷，用论文积累的指标衡量科学家个人学术成就。然而这一研究虽可以评价一个科学家的终身成就，却无法揭示研究的最新进展，不合适于评价年轻科技人员。最重要的是，无论发文量还是被引量，只是科研活动的表现形式，只能直观地反映学者的学术活跃度，并不能完全反映一个科学家在某领域中的学术贡献。⁹可见，无论是论文检索、刊物评价还是引文分析，都可作为学术研究的辅助工具，这是引文索引在我国被视为学术评价工具的原因，也是短时间内迅速普及、得到广泛应用的原因。

期刊评价工具被用于学术评价，还有如下原因：第一，学术期刊是承载学术成果的载体，对载体的评价和对内容的评价很难割裂开来；第二，科学家认为在一定的时期内一篇文章的重要程度可以通过被引用的程度来衡量。毕竟，引用反映了学术共同体对某一学术成果的关注和重视，通过对引文的分析，可以了解该研究对其他研究的影响，揭示相关学科之间、相关研究成果之间的关系，这是研究成果价值的体现；第三，依据文献计量学原理编制的年度性“期刊引用报告”为科研管理机构进行学术资源的分配、学术活动的管理提供了便利，使得复杂的学术评价变得具有可操作性；第四，量化的引文分析结果与用其他方法评定的结果有极强的相关性¹⁰；第五，由于学科评价是与学术机构团体利益和学者的个人利益挂钩的，这种评价的竞争性，以及由于管理所要求的即时性等特点，使其在掌握公平性和易操作性方面具有相当的难度，以计量为主的期刊评价工具则具有相对优势。

然而，要用基于期刊整体的评价代替基于个体的学术成果评价有其先天的缺陷。首先，所谓“核心期刊”是根据占总量20%的期刊上的论文可以满足学术论文引用需要的80%这一文献计量学的定律而确定的，代表着20%的来源刊不能满足散布在80%期刊上的另外20%左右的引用需求，也就是说另外20%左右的高学术价值的论文未被承认；其次，论文发表后的被引时机和时间长短因不同学科、不同研究领域而有不同；同样，科学研究中的价值从被发现到被重视、承认和广泛接受亦有一个过程。因此，成为“热点”而被大量引用不能与价值完全划等号，未被引用的亦不能与“没有价值”划等号。科学史上已有许多例子能证明这一点。再次，任何一个刊物不可能每篇论文都得到引用，而期刊评价却是以该刊的所有论文为整体的评价，可称之为一种“中观”评价；学术成果评价则是对个别学术成果（在期刊中指学术论文）的学术价值的评判，是一种“微观”评价。Thomson Reuters在题为“保持期刊影响因子的完整性”的一段论述中，用粗体字强调，不要用期刊影响因子去评价个人的业绩（Do not use the Journal Impact Factor to assess the performance of an individual research），期刊影响因子只能用于评价期刊。¹¹最后，正如前述，目前的期刊评价大多是一种基于形式的评价（或依笔者之见是一种评比），而学术评价则是针对学术成果内容的评价。学术评价早在计量方法引入之前就已存在，它的内涵远比文献计量学所能测度的内容丰富得多，复杂得多，以目前的方法论和信息技术而言，还难以用数据来刚性地、单一地分析复杂的人类脑力劳动和精神产品。为此，人们只能从影响力（引用量、转载量、阅读量或借阅量、发行量等）、社会声誉（获奖数和获奖层次）、学术地位（作者职称或机构的权威性）、规范程度（题录信息的著录、引文质量、差错率）、制度保障（有无匿名评审制度、有无学术违规行为、有无收取版面费）等等形式上的、定量的观测结果进行判断，只在宏观和中观层次上有借鉴意义，但在微观层次上，计量方法目前还难以对个性化的学术研究结果，特别是对其内容的质量高低作出科学、合理和相对准确的价值判断。

学术评价是针对内容的。这就要求评价者（专业编辑和同行评审者）能够读懂论文的内容，能够从研究问题难易程度、专业知识掌握程度、论证水平、观点、方法和资料驾驭水平等等尺度进行论文的综合质量分析，在此基础上进行科学性、价值性、前沿性、学术贡献、学术特色、风格、专长的比较，最终得出刊物整体的创新性、研究的多样性、争鸣性、价值性的判断。同时，还需要对作为载体的学术刊物的研究导向、栏目设置、编稿质量（校对、差错率）、学术规范（审稿、编辑、著录、出版及学术不端检测等）进行审查。显然，上述评价不是引文索引的数据加工人员能够做到的。

因此，引文索引能否用于学术评价，不是个“能”或“否”的简单答案，要看用在哪些方面，以及如何应用。正如前述，在宏观或中观层面上，依据引文资料所做的学科分析是具有一定的参考价值，但如果用于个人学术成果的评价，一定要慎之又慎。论文是否收录在某核心期刊上可以成为衡量学术水平的参考指标，但不宜作为硬性指标。凭什么说不在核心期刊上的文章就一定不是好文章？如果作者自荐加上学术同行的审核认定，为什么就不能得到科研管理部门的认可呢？不幸的是，当这个问题遭遇“操作程式”，“参考”就变成了“硬性”，因而一再验证了我们常常批评学术评价的“简单化”、“一刀切”和“行政化”，反映了科研管理体制中深层性的老问题。

04四、学术评价：影响力还是创新力

科研管理部门在使用文献管理部门的期刊评价工具进行学术评价时，以学术期刊的整体质量来“估测”某一学术论文的质量，是只利用了期刊作为学术成果载体的特点，未充分认识到，反映文献分布规律和老化规律的指标，包括影响因子、被引频次、即年指标、期刊影响广度、地域分布、半衰期等等可量化的指标无法取代不同类型的科研与教学活动所具有的不同的价值标准。

创新力应是衡量学术论文价值的根本标准。一篇没有创见的文章，对社会进步和科学技术发展不起作用，也无法提供科技领域新的内容。创新性大，论文价值高；反之，论文价值就低。所谓的创新性是指论文中阐述世人尚未谈过的新理论、新方法、新技术或创新性的模仿，而且需要在实践中经过反复探索、研究而形成。借助影响力指标来评价创新力面临着技术性难题：这种始于问题的觉知、继于心智活动的探索和方案的提出、终于问题的解决和验证的活动，没有统一的表现形式可以描述，没有固定的行为模式可以遵循。此外，创新力的评价需要对相关的学术领域有深刻的了解和洞察，难以避免同行专家因其学识、兴趣等个人因素的影响所造成的歧见。而创新的发现要求对“异质”关注多于“同质”，更侧重个性而非共性的比较。一种在求异或逆向思维主导下的创见在最初未必会取得共识，成为热点，因而在一定时间内（例如两年引用期）不一定有较高的引用率，也不一定达到峰值。

最早揭示核心期刊现象的英国著名文献计量学家布拉福德（S. C. Bradford）将其发现公布于《工程》（Engineering）杂志上的时间是1934年，这篇题为“关于特定主题的情报源”当时没有引起多大反响，两年后也未产生“引用峰值”。解决科学问题本身需要时间，原创成果的传承和传播需要时间，创新成果的价值检验需要更长的时间。因此，创新力的几个要素——创造前所未有事物的能力、解决问题的能力、在思考过程中能够产生创新事物的能力、将可联结的要素结合成新的关系的能力——很难用文献计量学的语言来描述，至少到现在为止评价工具还没有理想的定量方法和可以量化指标。

当然，强调学术评价的定性的创新力标准，并非要否定定量的影响力标准，而是想说明，当我们不得不借助影响力指标辅助学术评价时，不能忘了学术研究的根本目的在于探索真理，解决问题，提升创造力。将影响力作为借鉴，知识从易操作的角度而言的，不能忽视由此带来的急功近利的副作用，特别是当学术评价与利益分配捆绑在一起的时候。

期刊评价目前被错位地用于个人成果的学术评价是现行体制下的一种“无奈的选择”。说明这一点的目的在于不要混用这两种评价，要看到期刊评价用与学术评价的缺陷，也要看到期刊评价行使这种作用的合理性，不能避难就易地将学术评价排除在现有的评价体系中。相反，在认识到这种“不可替代性”的基础上要积极推进以学术创新力提升为导向的学术评价研究，因为学术评价导向不仅影响着社会科学研究的导向，也是决定社会科学研究的发展源泉。学术评价如何改进现存评价体系中的不合理成分，让它发挥推动和引导科研活动朝着更具创新力的方向发展，是评价研究工作者、学者和管理部门共同面对的话题。

05五、问题的根源：评价工具还是评价体制

无论哪一种工具，在用于评价时都会暴露出自身的缺陷。无论采用哪些评价指标，都可以找到反例来批判说明这些评价标准不恰当的地方。¹²产生上述问题是缘于我们面临着一系列矛盾：管理人类极为复杂的思维和智力劳动不得不用相对统一的标准和简单、易于操作的方法；创新力最活跃的因素——科研好奇心、独立思考、探索勇气、建树激情、问题意识和批判精神往往被套牢在追逐利益的功利枷锁中；缺乏对定量指标局限性的认识，走入“定量指标=客观评价”的误区；统一的定量指标如何对个性化的学术研究，特别是研究成果的质量高低作出科学、合理的评价，等等。一旦评价结果形成了按刊物影响力大小排序的目录并且在科研管理中得到应用、推广，形成了在绩效分配、职称评聘、岗位晋级、学位颁发中的一整套考核规定和制度，这套制度又会反过来固化当前的评价方法，两者相辅相成，甚至互为因果：刊物对作者说，请给我好稿子。作者说，你是“核刊”吗，如果不是，给了也是白给，因为单位不算“工分”。那么，是有了好稿子才可能有“核刊”，还是有“核刊”才能吸引好稿子？陷入这个“鸡”与“蛋”孰先孰后的怪圈永远无解。

如果始终盯着工具，而忽略了工具的使用，则是本末倒置。

能否跳出这个怪圈，从使用的角度，也就是说从体制这个根本性的问题上作一番思考？这里所说的评价体制是由评价客体、评价主体和规则制度组成。评价客体是学术论文还是作为论文载体的期刊？评价主体是学术同行还是数据加工人员或者是科研管理者？评价规则是基于创新力还是基于影响力？是基于解决问题的科研成果还是基于刊物等级的论文数量？

摆放的位置不同，发挥的作用及其产生的结果自然不同。期刊评比之所以不能取代学术评价，在于影响力的评价不能代替创新力的评价，形式评价不能代替内容评价。它们之间关系的“缺位”、“越位”造成了“以形式代替内容”、“以量代质”、“以刊评文”等等的“错位”，而造成这种错位的恰恰在于“规则”——以科研产出为目标，以产出数量、等级与利益分配挂钩的绩效主义评价为激励。尤其是将来源期刊作为学术榜，凡不在该类刊物上的论文不被认为是好论文，得不到学术共同体的承认，这种硬性规定将“好稿源”赶到了那一小部分“核心期刊”上，由此增添了“马太效应”中的人为因素，不仅高质量论文的积压造成发表时间延长，而且加剧了刊物的竞争——往往不是“互补、互识、互鉴”式的良性竞争，而是比“学术声誉”的“老大、老二、老三”的座次争抢，在核心刊和非核心刊之间，甚至在核心刊之间“比”出了怨言和矛盾。

更严重的是，“大一统”的刚性标准所面临的评价有不同的类型（成果评价、机构评价、刊物评价、科研评价、论文评价、著作评价），不同的对象（基础研究、应用研究、理论研究与实证研究），不同的层次（宏观层面的学科评价、中观层面的机构评议与科研评价、微观层面的成果评价与科研人员评价），不同的内容（学术问题的评价、学术目标的评价、学术论证的评价、学术传承精神的评价），不同的标准（定量与定性、学术标准与非学术标准、直接标准与间接标准、价值标准与科学标准、人文学科标准与社会科学标准、基础理论研究与应用实践研究），不同的期刊定位（普及刊、工作刊、学术刊）等。要用一把钥匙开那么多锁，再怎样改进工具都无济于事。

一些人把怨气出在工具上，试想，如果取消诸多评价工具中的一种就可以解决上述问题，那么，取消了学位与研究生教育中心曾试图推出的“A类期刊”，有没有解决“以刊评文”这个体制性的问题呢？¹³再试想，如果取消“学术榜”式的“核心期刊”目录，真正回归数据库收录期刊的来源目录，影响力大小的问题，无论“前100位”、“前200位”交给各类用户根据自身的情况自行确定，原来“圈子”里的刊物会赞成吗？失去“可操作性、易操作”工具的科研管理单位会同意吗？让被视为“核心”的数据库真正回归数据服务的角色并非是一件简单的事，就眼前来说，它涉及评价体制的问题，就长远而言，更涉及我国科研管理、科研政策改革这类更深层的问题。不少人说，有工具比没有工具好，毕竟来源期刊目录中的绝大多数是被学界认可的高质量的期刊，取消工具岂不乱套？笔者的理解，这个“套”就是我们现在习惯了的评价体制和科研管理体制。评价体制中的问题不解决，被这些问题放大了工具的缺陷是难以克服的。

当然，“规则”的改变已经开始，例如，在成果评审方面，延长评价周期，关注“代表性成果”，改评价标准“一刀切”为分类指导与分层次考核相结合；在评价主体方面，加强学术评价中的匿名评审、双盲评审、回避原则，细化专家库中的“小同行”以避免“外行评内行”；在职称评审标准方面，对科技人才不再将论文发表作为评价应用型人才的限制性条件，对工程技术人才、正高层次系列不再共有一个评价标准，对于企业、基层一线和青年人才，破除论资排辈，突出创新创业实践能力的评价；在评价制度方面，逐步建立公示制度、监督制度、申诉制度、纠错机制，等等。希望这种改革能够真正触动体制这个“套”，产生抑制学术生态失衡的实效。

06六、“解套”的起点：走出认识上的误区

走出困境，首先要走出认识上的种种误区。

第一，淡化核心期刊意识。正如考试是学生的“指挥棒”，当评刊工具成为考核工具的时候，也就变成指导一切研究和教学工作的“指挥棒”。“核心”者，“中心”或“主要部分”（《新华字典》，北京：商务印书馆，2001年），它必须是某一学科较为集中地刊载原创性论文的学术性期刊，它必须是少量的、代表该学科现有水平和发展方向的期刊。¹⁴核心期刊是一种客观存在，可当它成为追逐的目标和行动的自觉时，就变成了指导一切工作的“指挥棒”。去除“指挥棒”作用，首先要淡化“核心期刊意识”。科研管理上的“核心期刊意识”是将该刊目录作为科研定量管理的硬性指标，忽视或轻视低引文率的好论文，在此思路下出台的各种评价指标和配套政策成为教学和科研的“抓手”，导致只认刊物不认论文的学术评价；刊物建设上的“核心期刊意识”是摈弃学术期刊发展自身的规律和初衷，只以期刊评价指标为“抓手”，以提高影响因子为唯一目的，这有可能导致期刊偏离了学术追求和社会关切，走向“世俗化”、“功利化”和“同质化”；作者的“核心期刊意识”是以论文能否登载上核心期刊为目标而不论是否适合发表自己的成果，导致“为‘核心’而投稿”、“为论文而论文”，一旦刊物离开了排行榜，立即撤稿改投他处，哪怕削减一半篇幅也在所不惜。这种功利性的“研究”越多，放在真正研究上的经历越少。长此以往，学术成果的价值大打折扣；学术评价机构的“核心期刊意识”是试图掌握评刊的话语权并引领学术研究方向，而不是关注如何通过学术批判和学术争鸣去提升创新力。

当然，产生“核心期刊意识”的真正原因并不都在刊物、作者或评价机构，要克服和抵制由此带来的负面效应也非一刊、一人、一机构能胜任。评刊工具能做的，就是尽力淡化充当“核心期刊排行榜”的角色，回归为学术活动提供数据服务的原位上来。就CSSCI而言，就是利用多年的数据积累发挥向用户推优荐优的作用，突出检索工具的角色，加强统计分析的功能，为作者和读者的阅读与投稿提供依据，为科研管理提供信息服务，为优秀学术成果的传承和传播提供检索的便利，为办刊提供有益的建言，能够利用丰富的数据回答诸如期刊在学科中处于什么水平、发展趋势如何、读者关注什么、与同类优秀期刊相比差距在何处、该怎么获得优质稿源、怎么找到学科内的优秀作者等等刊物真正关注的问题。毕竟，作为期刊评价工具，它的主要职责就是让学术成果的价值得到后人不断地解读和引用，能很方便地被他人获取并用于相关的研究中，使其在更大范围内得到学术同行的认可。如果CSSCI能协助实现这一目标，就是它最大的价值体现。

第二，走出“定量=客观”的误区。客观的数据不等于用在评价上也一定是客观的。文献的相互引用是一种复杂的思维过程，索引加工人员是难以深入考察引用行为间的内在联系的。引用行为受许多主观因素的影响，包括引用文献的可获得性，论文发表的时间、语种、所在学科专业、引用者的检索能力、二次出版物报道等因素。而刊物排名和影响因子的大小也很容易受到诸如期刊载文量的急剧变化、刊名改变、关键词不确切等因素的影响。文献计量学所揭示的文献分布规律是期刊在百花齐放的发展过程中自然形成的，但在不良的学术生态和行政干预下，高学术价值论文向少量刊物集中的规律有可能受到人为因素的扭曲，使得刊物质量的升降与好稿源被切断与否发生了某种联系。而好稿子的发文空间受到挤压所催生出的种种弊端，如果不加以控制亦会使数据失真，在一定程度上反过来影响数据的客观性。因此，文献计量学家们很早就文献计量工具用于评价时指出，只有当人们对文献计量学指标的自身缺陷有了足够的认识时，也只有在这些指标与其他更多的定性评价信息相融合时，文献计量学指标才能成为科研绩效评价的有效工具。

第三，不要将高引用与高质量完全等同起来。被引次数上的微小差别，不能说明论文质量上的高低。文献被引用反映的是某种影响力，高影响力可能与高质量相关，但不能一概而论。在一些案例中，被引用越多，也许越象征着一种否定的评价。不常被引用的文献亦不能认为不重要。要解释某一成果的学术影响力本身就是很复杂的，没有同行的介入，没有对内容的认真分析，是很难得出质的判断的。

第四，正确对待评价后的排名。评价似乎永远与排名、身份认同纠缠在一起。对排名的热情是人类的心理偏好之一，排名在不同利益主体间产生竞争有积极意义，也有消极意义。15在现行的评价体制下，只要存在对排名的需求，对排名研究的热潮就不会降温，期刊“晒排行”、“秀榜单”还将长期存在。要刊物不追求转载率、文摘量、引用率等仍是困难的，毕竟在目前情况下这关乎刊物的生命，但重要的是正确对待排名的结果。所有的排行榜都是动态的，与其提心吊胆地关注“会不会掉下去”，为保持或提升排名而倾力攻关、买论文，甚至不惜冒学术不端之险“做数据”，不如把精力放到内涵的提升。“看淡”影响因子需要自信和勇气，需要跳出“怪圈”，看穿影响力和“排座次”这个表面的东西及其所带来的负面效果，始终如一地走“好文章——好刊物——好评价”的路线，始终扣住需要解决的社会实践问题，依照办刊本身的规律潜心做好组稿、审稿、选题策划、规范化等工作，而不是反其道而行之（先把评价需要的数据“做”上去，解决“入榜”问题后再吸收好稿源）。对于文献计量工作者和评价工具的研制者来说，要更科学地设置指标体系，尽可能将定性和定量标准科学地结合起来，建立起排名研究的质量监督机制，引导人们科学、理性地了解产生排名的环境和现状，而不是一方面抱怨评价体制的不公，一方面仍在继续强化期刊的等级、身份和门户。对于科研管理部门来说，重心能否放在协助破“名”、破“利”、破“身份固化”方面进行制度设计，为避免评价简单化、功利化、行政化而尽一己之力。既然高校已经开始取消“985”、“211”院校、“一本”、“二本”等等名分，期刊能否也走出为“名”所累、为“评”所动的怪圈？能否给刊物“松”名次之“绑”，“减”排行之“压”，使之无包袱地致力于科学发现、知识经验的交流、对学科建设的支持，对学术创新的贡献，对人才成长的支撑？

论文出处：澳门理工学报，2017年第3期

上一条：郝春文：改革开放前中国敦煌学的成就与反思

下一条：视频 | 天下遗珍：清代南部县衙档案