论文发表 | 论文范文 | 公文范文
最新公告:目前,本站已经取得了出版物经营许可证 、音像制品许可证,协助杂志社进行初步审稿、征稿工作。咨询:400-675-1600
您现在的位置: 新晨范文网 >> 工业论文 >> 数据挖掘论文 >> 正文

图书信息化数据挖掘技术管理探究

定制服务

定制原创材料,由写作老师24小时内创作完成,仅供客户你一人参考学习,无后顾之忧。

发表论文

根据客户的需要,将论文发表在指定类别的期刊,只收50%定金,确定发表通过后再付余款。

加入会员

申请成为本站会员,可以享受经理回访等更17项优惠服务,更可以固定你喜欢的写作老师。

摘要:高校图书管理系统中的数据具有庞杂性、隐晦性和关联性,传统的图书管理系统无法从这些数据中寻找到足够的有用信息以实现优化图书配置的目的。为了解决该难题,文中以某高校图书馆为例对数据挖掘技术在高校图书管理中的应用进行了研究,得到主要结论如下:第一,频繁书籍的挖掘对图书馆内书籍馆藏数目的优化尤为重要;第二,不同类别书籍间存在可信度较高的关联规则,同时馆藏数目有限和图书外借政策导致不同书籍间的支持度较低;第三,某图书馆图书外借记录的数据挖掘所得结果与现实中读者需求的吻合度非常高。

关键词:数据挖掘;关联规则;高校图书馆;Apriori算法

引言

在信息技术飞速发展的当下,图书检索等信息急速膨胀,而传统的图书管理措施无法深度挖掘图书馆访客的需求,这对图书资源的管理和相关决策带来了诸多不便,也阻碍了高校图书馆的发展。吴菁[1]对数据挖掘在图书管理中应用进行了研究;李会艳[2]针对高校图书管理,就数据挖掘技术的应用进行了分析;张晴等[3]人深入研究了大数据背景下,基于数据挖掘技术的移动图书管理系统的实现方案;于文超[4]分析了大数据和物联网技术在我国图书情报领域的应用方法及前景;赵雨薇等[5]人对基于数据挖掘技术的图书推荐、高校图书管理及图书馆个性化服务等进行了研究。虽然诸多学者已经着眼于数据挖掘技术在图书管理方面的研究,但当前我国高校图书管理系统中数据挖掘技术的应用仍然有很大的提升空间[6]。本文从数据挖掘技术的介绍入手,对高校图书管理系统中数据的特征进行了总结,对图书管理中数据挖掘的层次结构和数据挖掘需求进行了介绍[7],最后以我国东北某高校图书馆为例,对数据挖掘技术在我国高校图书管理中的应用进行了研究。

1数据挖掘技术

1.1数据挖掘的实施方案

在物联网和计算机技术迅猛发展的推动下,大数据的应用已经延伸到许多行业中,它不仅颠覆了人们对传统意义上数据的认知,更诱发了数据获取、存储、分析、挖掘以及可视化等技术的变革[8]。同时,当前人类生产及生活方式也将因大数据及其相关技术而产生巨变。“数据量巨大”只是大数据的表面特征,其全新的数据处理模式以及其短时间内传统工具无法完成的决策力、洞察发现力才是大数据更核心的意义。然而,原始数据往往都是含有杂质和大量干扰信息的,同时这些数据大多数时候都是模糊且无明显规律的。只有应用一定的技术手段,过滤掉既有数据信息中的杂质和干扰信息,才能获得真正有价值的数据,从而基于大数据做出更加科学的决策,数据挖掘(DataMining)则正是完成这一过程的手段,其实现步骤如图1所示[9]。当前,数据挖掘主要手段有关联规则分析、聚类分析、分类分析、预测、时序模式和偏差分析等,以下对本文主要涉及的关联规则分析及其常用的Apriori算法进行介绍。

1.2关联规则分析

在大数据时代,大量看似杂乱无章、无律可循的数据背后往往存在着深层的潜在联系,把从大量数据中寻找各数据之间的关联或依赖关系的技术称为关联规则分析(AssociationAnalysis)。关联规则分析的基本原理如下[10]:记D={t1,t2,…,tk,…,tn}为待挖掘的数据集合,记tk={i1,i2,…,im,…,ip},(k=1,2,…,n)为事务,其中im(m=1,2,…,p)为项,定义X为项集,其支持数定义为数据集D中包含项集X的事务数,记为σx,X的支持度记为support(X)。 式中,|D|为数据集D中的事务数,定义最小支持度阈值为minsup,当support(X)≥minsup时,称X为频繁项集,反之称X为不频繁项集[11]。记X和Y是数据集D中的项集,若存在XY,则support(X)≥support(Y),如果X为不频繁项,则Y也为不频繁项,如果Y为频繁项,则X也为频繁项。如果项集X∩Y=,则XY称为关联规则,X为关联规则的前提,Y为关联规则的结论,其支持度即为X∪Y的支持度,记为support(XY),令关联规则XY的置信度为confidence(XY),则有关联规则XY的置信度计算见式(2)所示[12]:定义最小置信度阈值为minconf,如果XY的关联规则中满足support(XY)≥minsup,且confidence(XY)≥minconf,则认为关联规则XY是强规则,否则为弱规则[13]。数据挖掘过程中,目标是寻找出暗藏于数据集D中的全部强关联规则,也就是寻找关联规则XY相应项集的频繁项目集。由图2可见,基于关联规则分析的数据挖掘就是通过两种算法交互挖掘出用户设定的最小支持度和最小可信度的集合的过程。

1.3关联规则

Apriori算法Apriori算法是首先限定待选项集的规模大小,然后对数据库进行扫描和计算并确定待选项集是否得以频繁使用[14]。其实现过程如下:①扫描数据库,分析每个项目出现的次数,生成1-候选集C1;②给出基于用户预先设定的最低支持度1-频繁集L1;③连接运算生成2-候选集C2,其中C2=L1*L1;④给出基于用户预先设定的最低支持度2-频繁集L2;⑤统计计算过程时C2中每个元素出现的次数;⑥将步骤①~⑤重复k次,用Lk-1连接得到Ck=Lk-1*Lk-1,且Ck=则停止计算;⑦利用Lk-1连接得到Ck,由于其子集是不频繁项集,所以(k-1)-项集均非频繁集,对其予以修剪或删除。

2高校图书管理系统中的数据特征

图书管理员和读者是高校图书管理系统的两大使用者,管理员只有与读者建立起足够多的联系和互动,才能更好地获知读者对图书的需求,了解了读者的需求,才能进一步优化图书馆内书籍的种类及数量,减少资源浪费,提高图书馆服务功能。一旦高校图书馆建立,馆藏势必将会不断增加,图书管理的规模也随之增大,图书管理的数据在逐步增大的同时,还将呈现出如下特征:①数据信息的庞杂性:读者检索、阅读和管理员对图书进行管理的过程中,都会生成大量的数据,同时,学生作为高校图书馆的主要使用者,在校时间也是非常有限的,每年图书馆都会有新用户加入和老用户退出,这也就意味着图书管理的数据将会不断增加;②信息关系的隐晦性:海量数据的堆积会遮盖既有数据背后真正的规律性,只有借助于有效的算法对体量庞大的数据进行合理的分析和处理,才能发掘出其内部所蕴藏的更有价值的信息;③信息之间的关联性:用户自身信息和其对图书的检索信息之间会有一定的关联性,但这一关联性是比较浅显的,在理解海量数据潜在性的基础上,发掘出数据背后真正有价值的信息,才能进一步寻找到数据之间的关联性,并在具有足够深度的关联性的支持下,更好地完成图书管理工作。图书管理数据信息的庞杂性、信息关系的隐晦性以及信息之间的关联性对图书管理员与用户之间的联系提出了更高的要求,而传统的图书管理办法无法建立这种强烈、高效、精确的联系,这为数据挖掘技术在图书管理系统中的应用提供了舞台。

3图书管理中数据挖掘的需求

本文所研究的高校图书管理中数据挖掘主要有“数据预处理”、“关联数据挖掘”和“模型可视化分析”三个层次,在数据挖掘过程中,我们主要关注“读者借阅行为模式分析”、“管理员个性化服务工作”以及“文献排架管理工作”[15]。

3.1数据挖掘的层次结构

高校图书管理中数据挖掘层次结构主要内容如图3所示。①数据预处理阶段即为数据收集阶段,首先从图书管理系统的数据库中对生成的数据进行转换和集成,其次将集成的数据导出为数据挖掘系统可使用的格式,再次将转换过格式的数据保存至图书管理数据挖掘库中;②关联规则挖掘阶段,基于关联规则和适当的算法(如Apriori算法),对第一阶段准备好的图书管理数据进行挖掘处理;③模型可视分析阶段,首先确定数据挖掘目标为图书借阅行为、个性化服务以及文献排架,然后选定图书管理挖掘任务参数,对图书管理数据进行挖掘处理,最后输出可视模式规则。

3.2数据挖掘的需求

①借阅行为模式分析:首先,根据读者的检索记录、借阅习惯和要求等,对读者群进行分析,获得书籍在读者群中受欢迎程度;其次,结合读者身份信息以及检索和借阅信息,对读者群体的特征进行分析,并借助于聚类数据获取读者的检索和借阅行为规则;②个性化服务工作:首先,对读者身份信息与其检索和借阅记录之间的关联关系进行分析,研究不同读者的具体需求,为读者提供个性化服务创建数据支持;然后分析不同读者对不同类型书籍的借阅时间和借阅顺序,分析读者的阅读习惯,为图书馆合理安排图书布局和在不同时间段内向读者提供适当的图书提供数据支持。③图书馆文献排架分析:在对借阅行为模式分析和个性化服务工作的基础上,通过数据挖掘技术对不同图书的受欢迎程度和不同图书的被借阅记录等进行分析,为图书馆文献排架的合理布设和图书利用率的提高提供数据支持,

4数据挖掘技术在图书管理中的应用

本文以某高校图书馆为例,该高校建成于1952年,现有在校生2.3万余人,图书馆馆舍面积共计41765m2,截止2017年年末,馆藏图书总量369.98万册,其中纸质图书243.26万册,电子图书126.72万册,中外文数字资源122个。从该高校图书管理系统中节选出部分读者借阅信息作为示例,如表1所示,其中,“Y”表示该书借出,“N”表示该书未借出。由表1所示的图书借阅记录,我们可以得出如下结论:①读者在图书馆借阅时,不同的书籍之间也存在着较强的关联性,如借阅《python基础教程》的读者同时会对《数据挖掘导论》和《数据挖掘概念与技术》比较感兴趣,而且《线性规划》的读者往往也会借阅《组合数学》和《MATLAB宝典》;②不同读者对不同书籍的需求是不相同的,由于图书馆中任意一本书籍的馆藏数量有限,所以对频繁书籍的挖掘对图书馆内书籍馆藏数目的优化是至关重要的。经分析生成的频繁书籍和数据挖掘结果如表2所示。由表2所示频繁图书及数据挖掘结果,可以得出如下结论:①不同书籍之间的信任度均高于75%,可见同一读者确实会借阅某一类型的书籍以完善自身在这方面的知识体系,对这些知识体系有关联的书籍的借阅数据进行充分挖掘有助于图书馆馆藏书籍种类和数目的完善;②由于图书馆对每一本书籍的免费借阅时长有所限制,导致了书籍间支持度较低的现象(样本书籍的支持度均低于10%),因此,对高校图书借阅数据挖掘过程中应更加密切关注“信任度”指标。

5结束语

本文从数据挖掘技术的介绍入手,对高校图书管理系统中数据的特征进行了总结,对图书管理中数据挖掘的层次结构和数据挖掘需求进行了介绍,最后以我国东北某高校图书馆为例,对数据挖掘技术在我国高校图书信息化管理中的应用进行了验证,结果表明:经过数据挖掘所得的结果与现实中读者借阅所需书籍的结果较一致。因此,在图书馆现代化信息管理中,应用数据挖掘技术可以更好地为图书馆信息化管理提供数据支持,优化图书馆书籍种类和数目,提升图书馆的服务质量,更好的为读者服务。

作者:薛健 单位:北京师范大学珠海分校

图书信息化数据挖掘技术管理探究责任编辑:张雨    阅读:人次