优化传统作者共引分析的研究范文

时间：2022-11-14 10:05:58

优化传统作者共引分析的研究

《图书情报知识杂志》2015年第六期

作者共引分析(authorcocitationanalysis,ACA)方法由WhiteHD和GriffithBC于1981年提出[1],其主要目的是通过作者之间的共引关系探究某学科(领域)的知识图谱,进而指导科学研究[1,2]。ACA的基本假设可以总结为以下六方面:①著者的被引用意味着被引用者所利用;②著者被引用反映了该著者研究的质量、重要性和影响;③被引用的著者往往是经过源文献作者筛选的、相关资料中最适于作者所用的文献[1];④两位作者具有共引关系,意味着他们的研究具有相关性;⑤所有的被引文献在共引分析中都具有同等的地位[2];⑥两位作者的共引次数越多,其相关性越强。1990年,McCainKW对ACA的流程和细节给予了更详细的探讨和规范[3];次年赵丹群也在我国首次介绍了共引和共引分析方法[4]。此后,ACA被广泛地应用在许多领域,例如图书情报学、医学、计算机科学和管理科学等[5-12]。2010年后,ACA研究更多地转向了全文本分析的领域(citationanalysisinfull-text或citationcontentanalysis)[13]。不过由于语料获取的困难性,目前已有的全文本分析大多样本量不大,或者只选用了窗口较小的引文语境。密歇根大学和新加坡国立大学的学者利用光学字符识别(opticalchar-acterrecognition,OCR)技术和人工处理构建了一个大型引文语料库[14],但语料噪声较多,还有待改善。然而,参考文献中除引文题名、引文作者姓名之外的其他信息却甚少受到关注,通过对JASIS期刊内1917篇文章的观察发现:两篇引文发表时间的差距越小,其作者在这两篇引文的发文期间更有可能研究相似的热点或解决相似的问题,且两作者在该领域的知识图谱应有较近的关系。也就是说,引文发表时间亦可显示出被引作者间的研究相关性。因此,本文梳理传统ACA方法的步骤,通过对典型算法的探讨与问题的理解,综合引文发表的时间信息与传统作者共引信息,并通过实证研究将它与传统ACA结果进行比较分析。

1传统作者共引分析方法概述

传统ACA主要通过计算引文作者两两间的共引数量得到原始作者共引矩阵,并通过一系列转化和分析,绘制出某领域的知识图谱。通过ACA可以发现某研究领域中处于研究前沿且备受关注、多次被引的作者,找寻作者的研究路径和研究偏好,进而促进学术合作和学术交流。ACA的方法也常被广泛地应用在许多领域,作为评估该领域发展现况和科学结构分析的参考。通过对传统ACA方法进行梳理,笔者将其划分成六大步骤(如图1所示):①搜集领域关键数据;②确认分析对象;③建构原始共引矩阵;④生成相关矩阵;⑤数据分析和可视化;⑥结果解释与效度分析。图1传统ACA方法的典型步骤

1.1搜集领域关键数据ACA通过作者间的共引关系来挖掘某研究领域中的中心作者。它或是在宏观层次揭示整体的学科结构,或是在微观层次描述单个子学科或研究团体及其相互依赖关系,因此确定拟研究的学科领域极为关键[15]。选择的学科范围既可以是完整的学科,也可以是学科中的研究专题。然后,研究者通过咨询领域专家、依据期刊的内容和影响力[16]、滚雪球[17]或者直接通过个人储备知识和学者的著作情况[3]确认该领域关键的出版书籍、研究团体、学术期刊或会议,并从中搜集和筛选有效和重要的研究著作。

1.2确认分析对象数据集确定并进行了规范的作者姓名消歧处理后,对于如何提取参考文献中的作者数据,研究人员亦有不同的争论。由于传统ACA往往使用只含有第一作者信息的ISI题录数据[18],并利用SQL语句进行作者遴选[3],因而传统ACA只使用第一作者而非所有作者进行计量。由于这种计数方式的精确度饱受质疑,Persson[18]首先开始进行全作者共引分析。此外赵党志[19]、Schneider[20]、Rousseau[21]和Eom[22]等研究人员还比较了第一作者共引分析、狭义全作者共引分析和广义全作者共引分析,展示了更为广泛的作者共引分析计数手段。与第一作者共引分析相比,全作者共引分析能够全面地遴选出领域内的相关作者,且知识图谱的描绘更为详细[22]。1.3构建原始共引矩阵传统ACA中,即使两位作者被同一篇论文引用多次,两位作者的共引次数也仅仅加一。数据集中同时引用两位作者的论文篇数即为两作者最终的共引值,并将其填入原始共引矩阵中。显然,原始共引矩阵是对称的,由于矩阵主对角线元素的行列标识均为同一作者,所以“共引”这个概念在主对角线元素上很难处理。这也引发了学界的争论。Eom在其著作中详尽叙述了传统ACA主要使用的处理主对角线的方式及其比较[23]。原始共引矩阵中的非零元素往往不多,因而需要对矩阵进行缩减。矩阵缩减一般需要研究人员自行设定阈值,并将低于阈值的行列删除。然而,这一阈值的设定基本是研究者主观设定,目前关于阈值设定的研究较少。

1.4生成相关矩阵为了进一步核查分析对象间的相关程度[3],便于后续的分析,ACA需要将原始矩阵转化为相关矩阵。传统的转化方式是使用Pearson相关系数,然而2003年后学界开始了一场对于相关系数的大辩论[24]。争论点主要有:①Pearson相关系数是否适合应用在ACA中;②Pearson相关系数适合应用在ACA的何种矩阵计数方式中;③Pearson相关系数是否优于其他度量方式(如Cosine距离、Jaccard距离、Euclidean距离和Chi-square距离等);④如果Pearson相关系数不适于ACA,那么如何在现有基础上改进它;等等。这场关于相关系数的辩论仍在进行中。

1.5数据分析和可视化传统ACA主要使用了聚类分析(clusterAnaly-sis)、多维尺度分析(multi-dimensionalscaling,MDS)和因子分析(factorAnalysis)进行数据分析和结果可视化。这三种分析方式往往互为补充,互为佐证。在聚类分析上,传统ACA大多使用层次聚类(hier-archicalclustering)方法进行聚类[3],并且通过树状图来可视化聚类分析的结果。在多维尺度分析上,研究人员通过SPSS软件的多维尺度分析(ALSCAL),以散点图可视化其结果;而近期的很多ACA研究则使用网络分析(networkanalysis)的方法并利用更适于绘图的软件进行数据可视化。在因子分析上,传统ACA使用主分量分析(principlecomponentanalysis,PCA)方式来寻找领域中具有重大贡献的作者(群)作为主分量。1.6结果解释与效度分析通过对引文数据的分析处理,能使分析对象的格局更加清晰直观,并能提供分析对象之间由引文关系形成的相对位置关系和相互关系的亲疏程度,再结合学科专业知识,可做出进一步的分析和判断。

2基于引文发表时间信息的作者共引分析方法

根据传统ACA的基本假设,两作者的共引次数越多,代表其研究内容上的共通性越强。然而传统ACA仅使用了参考文献列表中的“作者”(referenceauthor)信息,传统文献共引分析(documentcocitationanaly-sis,DCA)仅使用了“题目”(referencetitle)信息,它们却都忽略了参考文献列表中其他信息对于知识图谱的影响。笔者在应用传统ACA方法过程中发现,两篇同领域引文发表时间的差距越小,其作者越可能研究相似的热点、解决相似的问题或同课题的不同子问题,因此认定两作者在该领域的知识图谱应有较近的关系。也就是说,若在传统ACA基础上引入引文发表时间信息将能凸显共引作者之间的关系,即:①两作者引文发表时间差小,则表示作者是在同一时期倾向于研究相似的问题,通过时间信息来改进作者共引关系的分析结果,其知识图谱所展示领域中的明星作者更有说服力,易于产生有意义的研究团队合作与交流;②两作者引文发表时间差大,则表示作者虽然在不同时期可能研究相似的问题,但因在当下的时空背景下可能引用的概念方法不同或解决的需求不同,故作者关系在知识图谱的呈现上应该会有所差异。因此,笔者提出了基于引文发表时间信息的ACA方法,其架构如图2所示。与传统ACA方法相比,该方法新增了提取被引文章发文的时间信息以及基于发文时间计算被引文章间关系值,并修改了系数矩阵的计算方法,即图2灰色的区块,其余的皆与传统ACA方法相同。笔者将在

2.1节说明如何计算基于发文时间共引作者间的关系量,并在2.2节详述如何结合时间信息与共被引作者信息生成作者共引系数矩阵2.1引文间发表时间差异的计算模型———自然对数模型差值越大,函数值越接近于0,如图3所示。此函数的设计有如下特点:①两作者的平均发表时间值越接近,函数值越大,这表明两作者的被引关系较强;②函数值域为[0,1],可简化后续运算,不需要再将该值进行标准化处理。

2.2综合引文发表时间和共引作者信息的计算方法为了通过引文作者和引文发表时间这两个因素来生成系数矩阵,首先需要对共引作者矩阵进行标准化。

3实证结果与分析

3.1数据获取与清理笔者选择国际情报学领域期刊JournaloftheAs-sociationforInformationScienceandTechnology(原名JournaloftheAmericanSocietyforInformationScienceandTechnology,简称JASIST)2003年1月至2012年6月刊载的所有类型为Article的学术文献,并在WebofScience(WoS)数据库中下载了它们的基本外部信息和参考文献信息,包括题名、著者、发表时间(精确到月)、卷期号、引文第一作者、引文发文年度、引文所在期刊、引文起止页码等。经过了初步过滤,笔者选取1,917篇源文献和64,524条参考文献。随后,笔者通过两次聚类[25]和人工过滤的方式对引文作者的姓名进行了消歧和归并,并将被引少于10次的作者进行了剔除,得到了953位作者和27,445条参考文献。为了避免稀疏结果,笔者再次遴选引用量最大的前100位作者,并采用了如前所述的自然对数模型对引文发表时间信息和作者共引信息进行了标准化处理,经过加权和转化后并构建出最终的共引矩阵。该矩阵主对角线元素均为0。限于WoS提供的题注格式,这里只计算了该作者作为第一作者发文的情况。笔者随后进行了多维尺度分析和因子分析,并对分析结果进行阐释和说明。在多维尺度分析中,笔者使用了SPSS20.0中的MDS(ALSCAL)程序,并要求输出二维散点图;在因子分析中,笔者使用了SPSS20.0中的“因子分析”功能,选择分析“主分量”,使用“最大方差分析法”输出“旋转解”。

3.2算法实证结果与比对分析为了实证算法的可行性,笔者将综合引文发表时间的ACA与传统ACA的实验结果从多维尺度分析和因子分析两个角度来进行比对分析。为了便于叙述,本文将传统ACA方法简称为“方法一”,而将笔者提出的综合引文发表时间的ACA方法称为“方法二”。限于篇幅,方法二中笔者只展示wA=0.6,wt=0.4的实验结果,这是多次实验过程中的最佳权重值。

3.2.1多维尺度分析两种方法的多维尺度分析结果见图4。该图显示,两种方法分析结果均将所有作者分为3类。通过文章验证,左上角作者的研究多与信息计量学或科学计量学等[注1]相关;左下角作者的研究多与信息检索、信息行为研究或用户研究等相关;右半部分作者的研究多与语义挖掘、网络科学或自然科学理论与技术研究等[注2]相关。右半类的作者虽然也有一些从事信息计量学研究,但其在信息计量学研究的同时更为偏重“语义”方面的研究。简单观察图4结果可以发现,方法一同类内的作者分布较为分散,而方法二不同类间作者的距离较大,且同类内的呈现更为紧密。这说明综合引文发表时间的因素能将作者的相关性展示得更细腻、知识图谱可视化更为清晰。为了展示两方法的细微区别,我们在作者集中选取三位作者(作者及其研究领域见表1),并且将这三位作者的研究进行两两比较(见图5)。以共引作者2和共引作者3为例:从方法一角度看,图5最左边的数轴显示,同时引用这两位作者的文章有36篇(“▲”位置所示),这恰好等于这两位作者的共引值;从方法二的角度看,若引入每篇文章中共引作者的发表时间差(绝对值),图5右侧点为顶点为“▲”形的折线显示两作者有8篇文章是在同年发表且被共引,有12篇相差一年发表的文章被共引。图5也同时展示了其余作者间的统计结果。在这三位作者的两两关系中,共引著作发表时间差均不超过6年;且通过文章验证,多数共引且发表时间差在3年内的文章均属于解决相似问题或使用相似方法的研究,而时间差超过5年(含)的文章数量较少,且被引文章要么带有较为浓烈的综述色彩,要么可被认定为该领域经典。通过2.1节所示方法的计算,这三位作者的共引文章平均发表时间差值低,笔者利用自然对数模型量化表现作者著作的关系,也符合上述三位作者实际文章的相关性。图4上方的小窗口用不同序号标识了三位作者在两种方法下的MDS结果位置。表1显示,该三位作者的所属研究领域可视为网络研究和语义挖掘相关,虽然三位作者的研究方向各有千秋,但在网络研究和语义挖掘这个维度上有着共通的研究相似性,因而三人能够被较好地聚类。两种方法的实验结果均将三位作者均聚类为同一类,说明两方法有相似的聚类能力。而方法一展示的三位作者彼此距离较远,尤其是Ahlgren,Per(标号为1的作者);而方法二中三位作者则紧密地聚集在一起。可以看出,共引文章的发表时间与作者共引数量皆可以显示作者间研究的相关性,综合引文发表时间信息的作者共引分析更能细微地显示作者间的关系。

3.2.2因子分析因子分析是统计方法中从变量群中提取共性因子作为分析数据的方法,所提取的主分量因子的贡献值(占全部分量的比率)越大则可视为该数据中具有代表性或影响的因子。两种方法因子分析的部分结果如表3所示,且其分析结果均含有5个主分量。方法一中,第一主分量的贡献值为36.85%,5个主分量的累计贡献值为97.79%;方法二中,第一主分量的贡献值为52.00%,5个主分量的累计贡献值为99.87%。这五个主分量分别代表的图书情报学相关领域为:①信息检索(informationretrievalandseeking);②传统图书情报学与情报分析研究(traditionallibraryandinformationscienceandinformationanalysis);③信息计量学、科学计量学与数据科学(informetrics,sci-entometrics,anddatascienceresearches);④信息行为研究(humaninformationbehavior);⑤网络分析(net-worksanalysis)。这五个主分量并不是孤立的,而是有着不同强弱的关联性[26]。同一作者可能有着多个主分量,代表该作者在不同领域都有所涉猎。从表3可以看出,表中所列出的部分作者在方法一中所对应的主分量与方法二有所区别。这表明加入引文发表时间的因素能够将作者在不同年份研究领域偏好的因素加以考虑,并展示出许多传统方法不易察觉的细节。例如,情报学家Swanson的主要研究领域是信息检索和信息检索行为(对应主分量1和4),但他早期发表了几篇与网络研究相关的论文[注3],虽然这并不能代表其总体的研究领域,但是融入引文发表时间因素后这一细节则被显现出来。

4结论与展望

本文以JASIST期刊2003年1月至2012年6月间的学术论文作为数据集,在传统ACA的基础上,通过对相同数据集中引文发表时间信息进行收集,综合计算新的作者原始共引矩阵(系数矩阵),将实验结果与传统分析结果进行比较分析。结果显示:综合引文发表时间信息的ACA方法无论在多维尺度分析还是因子分析中均能保留传统ACA的能力,同时该方法的多维尺度分析结果能将同类别间的信息微观呈现,提高知识图谱的可视化的程度,并挖掘作者研究著作的偏移和所属领域的细微变化。综合引文发表时间信息的ACA方法使得知识图谱中描绘作者间关系的“距离”更富有物理意义,这使得学科领域内的作者分类将更细微地呈现领域内的科学共同体。在对传统ACA的扩展方面,本文仅仅引入了引文发表时间这一信息。后续的研究将在原始作者共引矩阵中加入引文发文期刊甚至引文关键词信息等其他复杂因素,进而进行比较分析。

作者：步一刘天祎黄文彬单位：北京大学信息管理系

优化传统作者共引分析的研究范文

精品推荐

扩展阅读

推荐期刊

基建优化

基建管理优化