您现在的位置: 新晨范文网 >> 工业论文 >> 数据挖掘论文 >> 正文

谈大数据的图书馆借阅状况分析

2022/01/04 阅读:

摘要:以上海浦东图书馆的自动借还书系统中的借阅记录和读者信息为基础数据来源,阐述数据挖掘技术中的关联规则算法,分析读者的行为模式,从而提升图书馆的服务能力。

关键词:数据挖掘,关联规则算法,行为模式。

0引言

数据挖掘作为一种深层次的数据分析方法,可以从大量的数据中挖掘出反映用户属性特征和信息行为特征的信息和规则,从而为图书馆用户资源管理提供极大的帮助。通过关联规则算法,对这些大数据情况进行分析和研究,从而透过表面的杂乱数据,获得读者信息属性间的关联情况,可以制定出更合适该图书馆的借阅服务。

1研究背景

面对大数据背景下,读者借阅情况的数据,如何从中观察和预测读者的借阅习惯,以便进一步了解读者的需求,从而进一步完善智慧化的读者借阅服务?包括哪些省份的读者是主要读者群体,这些群体又对应需要哪些书籍;读者的年龄分布如何,他们与读者来自哪些省份是否有关联;读者群体性别比例情况如何,不同性别是否对书籍的需求有不同;同性别不同省份的读者需求是否相同;针对不良借阅行为,读者群体的不良借阅行为是否比例很高,又与省份是否有密切关联等。这些都值得我们去研究分析,但是,面对丰富的数据,如何着手,通过数据挖掘的关联规则算法,可以有效解决以上问题。本文将讨论基于关联算法的读者行为分析,从而分析读者借阅历史记录中各属性情况,及各属性间的相互关联情况。实验研究结果将应用在图书馆服务的决策制定中。

2国内外研究状况

图书馆的读者行为方面的研究,有许多学者已发表了许多文章。有从图书馆情报方面去研究的,包括从图书馆提供服务与读者行为的关系角度分析的;问卷调查的方式调查分析的,由于数据来源是问卷调查,显然不够客观准确反映读者实际阅读情况,调查内容涉及对资源的满意度、对设施硬件的满意度及服务态度的满意度等;单单从不良借阅情况分析读者行为的等。也有结合数据挖掘去分析研究的,包括以决策树方法分析主要属性结点情况,从而了解读者借阅行为特点的;以聚类分析方法分析读者群情况、书籍借阅情况等。当然也有和本文研究方式相同的算法关联分析读者行为情况的。本文的研究角度和研究内容有别于这些研究。研究书籍借阅间的关联性,组织相似读者群;或是针对图书馆借阅系统进行单纯的算法设计和改良的研究等。RobinR.Sewell[1]和Cuddy,C[2].利用Twitter这个新型社交网络工具来发现图书馆读者行为特点并分析。Chan-Chine[3]运用数据挖掘方式,将读者分类并研究出更科学合理的读者服务内容,发现读者更趋向新型的电子资源的内容形式。ScottNicholson[4]提出从书目探勘角度,讨论如何建设书籍资料库及具体步骤,即建立一个广义的数字图书馆,从而更好地研究分析读者借阅行为。KathleenHalverson提出了一种新的图书馆合作模式,及公立的图书馆与学校图书馆建立合作关系,从而解决资金和藏书量不够等问题,更好地为读者提供服务。

3基于关联算法的读者行为分析

读者频繁项集的构建。以关联算法,扫描数据库,生成候选1项集,并依次构造最小支持度为2的读者频繁项集,假定数据是下记,最小支持度为2的场合。依照上述方法扫描数据库,依次生成候选1项集和频繁1项集、候选2项集和最小支持度生成频繁2项集以及候选3项集和最小支持度生成频繁3项集……,依次推算,可以构建出读者频繁项集。结论分析。通过以上构建读者频繁项集的关联算法分析方法,分析大数据后,获得以下发现。(1)读者群的基本情况:①主要读者群体来自上海本地,其次为江苏和安徽。②读者相当一部分是青壮年。③除了上海读者群年龄段分布显著,其他省份读者群则基本都是青壮年。④读者群体集中在上海江苏安徽三省。⑤上海和安徽是女性读者多于男性读者,其中上海男女比例0.6:1,安徽省男女比例0.9:1,江苏省男女比例1.1:1。⑥系统规定借阅册数上线为10册,读者更倾向借阅10册或者1册书籍。(2)正常借阅书籍的读者群中,借阅书籍的类型与读者来自的地域、性别和年龄段的关联情况分析。①女性读者显著比男性读者借阅更多的文学和语言类书籍,但是工业技术、经济军事、社会科学、艺术、政治法律类方面书籍,男性读者则相对比女性读者多一些,尤其是工业技术、经济军事类书籍显著多于女性读者。特别是军事方面书籍,女性借阅量为0。②上海市的女性读者借阅医药卫生类书籍占的比例相比各地域总体的情况,要明显高出许多。而且,除了军事工业数理化等男性感兴趣的书籍,其他书类均是女性读者占得比例高于男性读者。无论是上海市女性读者还是整体的女性读者群体,其文学书籍借阅量很大,且都显著大于男性读者,其他方面基本持平。③上海市读者群体,儿童读者集中借阅文学类书籍,所占比例近四分之三;青壮年读者借阅的类型较广泛和均匀,其中文学类所占比例较大;中老年读者更多阅览文学书籍,老年读者还对历史地理书籍感兴趣。④但是,从总体数据看来,青壮年读者占主要读者群体,且读者借阅的书籍类型与性别关联不大。(3)有不良借阅行为的读者群与读者来自的地域、性别和年龄段的关联情况分析。不良借阅行为分为已归还书籍但是欠逾期费未付和仍未归还到期图书两类读者群体。①产生不良借阅行为的情况下,随着读者所借阅的册数减少,其产生不良借阅行为的人数则增加,且仍未归还到期书籍的人数均要显著多于已归还书籍但未付逾期费的读者人数。②三省欠逾期费册数在5~8册均为0,集中在1~3册;三省仍未归还图书行为中,上海市读者借9册书仍未归还的情况为0,浙江省和安徽省则集中在10册和1册。有不良借阅行为的借阅的书籍量多为1~5册。③女性读者的不良借阅行为较男性读者更多。④上海市的读者群,女性不良借阅行为所占比例明显大于男性;而其他地域则基本与性别关系不大。④老年读者没有不良借阅行为。青壮年的不良借阅行为显著高于其他人群。⑤青壮年和中年读者群,女性的不良借阅行为要多于男性,而儿童则相反。(4)关于一名卡号为20707的忠实读者,在2006~2013年的八年借阅书籍情况的统计与分析:①读者自办卡以来,年借阅量基本稳中有增,尤其是2010年的借阅量增长迅速,可能与图书馆搬新馆有关。因此,图书馆的硬件环境对读者的吸引力还是很大的,但随后年借阅量又慢慢滑落,可能是新硬件的配置逐渐失去兴趣,又或者是搬新馆的地址与家的距离增大或者新馆周边交通不便引起的。②这八年读者基本都会来图书馆借阅书籍,是忠实的读者。

4结语

基于关联算法的研究,可以得到图书馆读者的基本情况包括省份、年龄段和性别分布,主要省份读者的情况,书类与省份性别的关联情况等。下一步可以从以下几个方面进行改进和研究:(1)书籍分类的细化。中图法的分类很细,如果进一步分析大类下的子类,对于读者的阅读兴趣行为会有更丰富的研究结果。(2)获取更多的读者信息细节。由于图书馆借阅系统统计到的读者信息的局限性,导致研究的关联属性还不够丰富,目前该借阅系统将被更新,今后会有更多研究数据。(3)更多角度分析读者行为。研究方法已经讨论基于关联规则,那么基于该方法的具体研究方面,可以拓展到读者的星座、住址与图书馆的距离、职业、交通工具对读者借阅行为的影响情况。

作者:陈佳欣 单位:上海浦东图书馆

谈大数据的图书馆借阅状况分析

2022/01/04 阅读:

推荐度:

免费复制文章