美章网 资料文库 数字阅览室共词与社会网络研讨范文

数字阅览室共词与社会网络研讨范文

时间:2022-03-26 09:00:29

数字阅览室共词与社会网络研讨

本文结合因子分析、聚类分析、社会网络分析寻找数字图书馆领域的研究主题,并且确定研究主题内的作者团体。因子分析法是一种抽取较少的公共因子来描述大部分信息的降维方法,旨在初步确定提取高频关键词中公共因子的个数;而聚类分析是一种归类方法,旨在将高频关键词归类,从而找到某个领域的研究热点。从某种程度来讲,因子分析为聚类分析提供了分类的参考,聚类分析进一步验证了因子分析的结果。首先,本文采用因子分析法对关键词共词矩阵进行分析,初步确定提取的公共因子个数。其次,采用聚类分析法对关键词共词矩阵进行数学运算分析,从而找到数字图书馆领域的主要研究主题。最后,运用社会网络分析方法,对研究主题的相关作者进行共现分析,并借助UCINET进行可视化,以便了解国际数字图书馆领域的作者团体。

研究热点分析

1关键词词频统计本文仅对搜集到的1173篇数字图书馆领域的文献进行统计,共得到3352个关键词。统计的过程中,需要对关键词进行处理:合并library、libraries等类型的同义词;“digitiallibrary”是一个高频词,涉及文献510篇,但是本文是以数字图书馆为研究内容,并且以“digitiallibrary”作为检索词,再选取这个词做分析意义不是很大,故不对该关键词进行分析;另外,诸如印度、台湾、中国等表示地域类型的关键词也不做具体分析。经过处理后,本文选择词频不少于10次的48个关键词作为因子分析和聚类分析的基础,统计情况如表1所示。由表1可知,对数字图书馆的研究主要集中在信息检索、网络、学术图书馆、虚拟图书馆、数据库、用户研究、元数据、档案管理、语义等方面;同时注重数字存储、信息技术、馆藏管理、本体等方面的研究;有些研究涉及到了教育、组合化学、通信技术等领域。

2因子分析本文为了初步确定提取公共因子的个数,采用了因子分析法进行试验。将48×48的关键词共词矩阵导入SPSS20.0中,并转化为Spearman相关矩阵,在该相关矩阵的基础上采用主成分、相关性矩阵、最大方差法进行因子分析,结果如表2所示。

由表2可见,48个关键词中有9个公共因子提取,他们能够解释总信息的91.269%,根据数据挖掘理论,所提取的因子应包括总信息的60%以上,因此表2提取4个及4个以上的公共因子都是合理的。但是由于因子分析对数据的要求较高,检验结果显示不是正定矩阵,KMO值无法计算出来,推测原因可能是由于样本较小或个别高频关键词的相关性较小导致的,但是仍然会显示表2的分析结果。所以本文仅借鉴因子分析提取的公共因子个数,并不采用因子分析的具体降维结果,从而为聚类分析的分类结果提供参考。

3聚类分析本文采用聚类分析法对数字图书馆领域的研究主题进行归类。聚类分析是研究“物以类聚”的一种方法,基本思想是:首先,将n个样品看成n类,即一类只包括一个样品,然后将性质接近的两类合并为一个新类,这样得到n-1类,再从n-1类中找到性质最接近的两类加以合并,变成n-2类,如此类推,直到所有的样品聚为一类。最后把整个分类系统画成一张谱系图,用它来表示所有关键词之间的亲疏关系。

3.1关键词预处理。关键词是文献核心内容的集中概括,能够较好地反映某一研究领域的主题分布与特点。对关键词进行聚类分析,为了便于统计,这里将原始关键词共词矩阵转化为相异矩阵。用Ochiia系数将共词矩阵转换成相似矩阵,具体算法为A、B两词的Ochiia系数=(A、B两词共同出现的次数)÷(A词出现的频次×B词出现的频次),从而得到相似矩阵。但是相似矩阵中的0值过多,统计时容易造成误差,为了方便进一步处理,用1与全部相关矩阵上的数据相减,得到关键词相异矩阵,部分数据如表3所示。

3.2聚类分析结果。在SPSS20.0软件中,导入关键词相异矩阵,采用系统聚类(HierarchicalClus-ter),选择离差平方和法(WardsMethod)与离散数据类型(Count)中的斐方(Phi-squareMeasure)方法,进行聚类分析。离差平方和采用方差分析的思想,使得类内关键词间离差平方和尽量小,类之间的离差平方和尽量大,从而达到分类的效果。离散数据类型可以设置分类数据之间的距离,Phi方度量消除了Chi方度量中维数的影响。结合因子分析的结果和实际情况,本文提取5个公共因子,描述了总信息的71.283%。最终分类结果如图1所示。由图1可见,本文将48个关键词分为5大类别,即国际数字图书馆领域研究热点主要集中在5大主题:数字图书馆虚拟技术研究、资源组织研究、资源建设研究、电子资源及版权研究和信息服务研究。

a.数字图书馆虚拟技术研究。主要包括虚拟图书馆、组合化学、虚拟筛选、对接、定量构效关系、人机交互。虚拟化就是把物理资源转变为逻辑上可以管理的资源,以打破物理结构之间的壁垒,资源的管理都按逻辑方式进行,完全实现资源的自动化分配,虚拟化技术在数字图书馆中的主要作用是进行服务器整合,也即将操作系统及应用从多个未得到充分利用的硬件平台重新部署到单台服务器上,进而节约空间成本、管理成本以及电源和散热成本。

b.数字图书馆资源组织研究。主要包括语义、本体、元数据、XML、研究、索引、多媒体。信息资源组织即信息资源的有序化的活动:利用一定科学规则和方法,通过对信息外在特征和内容特征的描述和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。数字图书馆是下一代因特网上具有高度组织的超大规模资源库群,它内涵了信息资源的生命全过程,包括生产、加工、存储、检索、传递、保护、利用、归档、剔除等,数字图书馆资源组织的关键是将信息资源在知识单元而非文献单元的层次上组织起来,从而提供有利于产生新知识的资源、工具及合作环境。

c.数字图书馆资源建设研究。主要包括档案存储、数据、信息系统、数据挖掘、推荐、开源系统等关键词。数字图书馆资源建设是数字图书馆重要的基础建设,研究主要包括构建数据库、数字资源整合与开发、数字资源共享等内容。建设数字图书馆要按照整体性、特色化、用户至上、科学性、系统性的原则,采取科学有效的方法和手段对各种信息资源进行筛选和整理、进行深层次的开发和整合。数字图书馆要进行合理科学的资源建设,才能更好的为用户提供服务。

d.数字图书馆电子资源及版权研究。主要包括电子期刊、电子图书、电子出版、版权。电子资源是数字图书馆资源组成的重要部分,海量的电子资源的使用也涉及到了版权问题。互联网时代版权问题的最大挑战,进一步加强版权保护的技术性措施,采用防拷贝技术、访问控制、内容保护、流媒体格式、数字水印以及DRM技术,保护数字化信息资源版权。

e.数字图书馆信息服务研究。主要包括网络、信息服务、用户研究、教育、信息检索等关键词。数字图书馆结合了先进的信息技术、网络技术,使得服务内容不断扩展,主要包括信息检索服务、参考咨询服务、个性化推送服务、信息定制服务等等。在信息服务研究中,个性化信息服务成为研究的重点,个性化信息服务是指能够满足用户个体需求的一种服务,即根据用户提出的明确要求提供服务,或通过对用户个性、使用习惯的分析而主动地向用户提供其可能需要的服务。

作者团体分析

根据统计,数字图书馆领域研究文献涉及作者3398位(不考虑同名异人的情况)。根据普莱斯对洛特卡定律的一个重要推论:杰出科学家中最低产作者所发表的论文数量,等于最高产科学家数的平方根的0.749倍。在本次研究中最高产科学家数为10,则杰出科学家中最低产的那位科学家所发表的论文数应为2.37篇,取整数为3篇。也即发文3篇及3篇以上的作者为数字图书馆领域的核心作者,经过统计共得到114位核心作者。根据聚类分析的结果,将数字图书馆领域的核心作者与5大研究主题进行共现,删除与5个主题都没关系的作者,得到共现矩阵。用UCINET对该共现矩阵进行可视化,如图2所示。

由图2可见,5大主题涉及的作者团体非常清晰。数字图书馆信息服务研究这个研究主题的作者相对来说比较多,团体比较大,联系比较紧密,主要作者包括Adams,A、Jin,Y、Thomas,R、Ray,K等作者。数字图书馆资源建设研究主题的作者团体仅次于信息服务,主要包括Hey,J、Gow,J、Porcel,C、Chowdhury,GG等作者。数字图书馆虚拟技术研究和电子资源及版权研究这两个主题的作者团体相对来说较小,但是也还有一些核心作者在研究,证明了这两个研究主题在数字图书馆领域的重要性。不难发现,该网络图的连通性较好,有些作者同时研究两个或两个以上的主题,这些作者成为网络图中的关键节点,有利于各个研究主题之间的学术交流。比如Jamali,HR、Lee,JY等作者同时研究资源建设和信息服务,Bainbridge,D、Witten,IH等同时在研究资源组织和信息服务,Spink,S、Chwn,CC等作者同时研究三个领域。

根据社会网络的基础理论,中心性分析相关概念解释如下:各个研究主题的度数中心度也即该主题包含的作者数除以总的作者数;研究主题的接近中心度即该主题所包含的作者到其他作者和研究主题的最短距离的一个函数;研究主题的中间中心度即当主题的每对作者在研究主题中相遇时,该研究主题才获得中间中心度。利用UCINET分析图2中5大研究主题的度数中心度、接近中心度和中间中心度,结果如表4所示。由表4可见,数字图书馆信息服务研究的度数中心度、接近中心度和中间中心度都是最高的,资源建设研究仅次于信息服务研究。数字图书馆电子资源及版权研究度数中心度、接近中心度和中间中心度都是最低的,相对其他主题,该主题处于数字图书馆研究的边缘位置。随着计算机技术的发展,数字图书馆的研究已逐渐向技术和服务方面渗透。

结束语

本文对数字图书馆领域相关文献的关键词进行了因子分析和聚类分析,其中因子分析的要求条件较高,一些弱相关的高频关键词会影响因子分析的检验结果,在对高频关键词分类的过程中会遇到有些关键词同时属于两个或者更多的类,导致无法明确分类结果。因此本文仅用因子分析初步确定了提取的公共因子个数,然后借助聚类分析进行具体分类,聚类分析可以清晰地看到各个关键词之间的亲疏关系,其分类结果更明确。结合因子分析和聚类分析的结果,本文归纳出2000年以来国际数字图书馆领域的5大研究主题:数字图书馆虚拟技术研究、数字图书馆资源组织研究、数字图书馆资源建设研究、数字图书馆电子资源及版权研究和数字图书馆信息服务。

同时本文对研究主题和作者共现矩阵进行可视化,指出了信息服务研究和资源建设研究涉及的文献最多,它们成为近些年数字图书馆研究的热点问题。数字图书馆资源建设是数字图书馆的重要任务,它广泛的应用数据挖掘、推荐、数据库等技术,为用户服务提供资源保障。数字图书馆信息服务研究是资源建设的目的,信息服务、信息检索、信息技术、用户研究等成为信息服务研究的重点,其中个性化信息服务也对资源建设提出了更高的要求。同时指出各个研究主题内的作者团体:a.以Wei,J、Langer,T、Frecer,V等为代表的虚拟技术研究相关的作者团体;b.以Lim,EP、Bertino,E、Teng,YL等为代表的资源组织研究相关的作者团体;c.以Hey,J、Gow,J、Porcel,C、Chowdhury,GG等为代表的资源建设研究相关的作者团体;d.以Watkinson,A、Nicholas,D、Huntington,P等为代表的电子资源及版权研究相关的作者团体;e.以Adams,A、Jin,Y、Thomas,R、Ray,K等为代表的信息服务研究相关的作者团体。各个团体之间相互合作,资源建设、资源组织、信息服务相关文献较多,作者团体较大,彼此之间的合作也多;电子资源与版权研究、虚拟技术相关文献较少,作者团体较小,与其它主题合作的也少。总之,数字图书馆作者研究团体已经形成,相对来说,热点问题的作者研究团体较大。各个作者团体的科研产出和科研合作绩效评价情况还有待进一步研究。

作者:皇甫青红华薇娜刘艳华殷之明单位:南京大学信息管理学院集美大学图书馆

被举报文档标题:数字阅览室共词与社会网络研讨

举报类型:

非法(文档涉及政治、宗教、色情或其他违反国家法律法规的内容)

侵权

其他

验证码:

点击换图

举报理由:
   (必填)