数据挖掘的读者群行为模型研究范文

时间：2022-10-10 09:50:46

数据挖掘的读者群行为模型研究

图书馆是高校师生学习与科研的知识平台，个性化服务是图书馆服务的核心任务，是以读者群为中心，围绕读者群的个性化文献信息需求展开服务的[1]。为了实现个性化服务，（1）要获取读者群的需求信息，建立读者群行为模型；（2）获取所在图书馆读者原始需求信息数据，利用数据挖掘(DataMining)技术，提取隐含在其中的，事先不知道的但又潜在的有用的信息和知识，对相关的资源进行分析处理，帮助图书馆决策者更好地了解读者的阅读兴趣需求，合理地指导资源配置，为优质个性化服务提供有效的决策依据；（3）针对读者需求，利用各种现代化关键技术将相关的资源主动推送给读者，满足读者的需求，有效地提高资源的利用率，提高图书馆服务水平。

1高校图书馆读者群行为分析

高校图书馆每天均有读者借阅图书种类统计、借阅图书册数统计、电子资源访问量统计、借阅者到馆统计等大量数据产生，目前大多数图书馆只是将这些数据用作常规的工作量统计，无法对读者行为进行分析预测，并以此判断读者对文献信息资源的个性化需求。将数据挖掘技术应用在图书馆海量、无序的读者行为数据挖掘中，发现不同种类数据之间的相似度、相异度及关联度，确定读者群的借阅行为趋势和个性偏好。

1.1数据样本的选择从某图书馆清大新洋系统中选择抽取了2014年11月份读者群借阅的数据，以图表的形式展现见表1。表1中，图书馆读者群包括了在校教师、博士生、硕士研究生、本科生、自考生、专科生、勤工助学学生、图书馆青年志愿者（本科生）及行政管理教职工等9个类型；借阅的图书是按《中图分类法》分成的22个大类。表1显示了2014年11月份，每一类读者群借阅每一类别图书的册数。

1.2读者群借阅数据分析

1.2.1本科生读者群借阅行为模型将表1中本科生读者群建立借阅行为模型（见附图），根据本科生读者群借阅的不同类型图书的数据，分析读者群的行为，通过数据挖掘的应用，为学科建设及图书馆纸质文献资源建设提供决策依据。某校教学以本科教学为主，以研究生及其它层次教学为辅，是以农业科学为特色，农、工、文、理、经、管、法、医、教、艺术多学科综合发展的教学研究型大学。从借阅的数据看来，某校的本科生读者群11月份借阅总册数为49706册，是9类读者群中借阅量最大的，说明本科生读者群是某校图书馆的主要读者群。从借阅类型来看，本科生借阅量最大的是H类(语言文字类)的书，这与某校四、六级考试过关率高是相吻合的；其次T类（工业技术类）的图书借阅量大，这与某校的信息技术教育质量好及计算机过级率高是相吻合的；第三就是文史类、心理学类、经济学类图书馆比较受本科学生青睐；第四农学、生物学等专业图书流通量较大；数学等类的基础教育类图书借阅量大，这与某校被选入国家“中西部高校基础能力建设工程”，重视基础教育是相一致。在表一中，可以看到思想政治类、教育类等其他图书借阅量不大，而某在校“十二五”期间，提出了以培养“厚基础、宽口径、强能力、高素质”的应用型人才和复合型人才为目标，要推进“基础教育+专业教育+素质拓展教育”的实施，完善大学生思想政治教育“123456”工程，不断提高大学生思想政治教育水平。因此，图书馆要配合学校实现培养目标，促使本科生读者群提高思想政治教育水平，还要在思想政治类文献资源建设、宣传和推介等方面下功夫。

1.2.2读者群相似度分析在数据挖掘中，聚类分析是一个活跃的研究领域，其应用也相当广泛。在图书馆个性化服务中亦可应用到。研究读者群的相似度可以为图书馆文献资源建设和利用提供决策依据。现抽取一线教师读者群（T1），行政管理教职工读者群（T2）、博士生群体（D）、硕士生群体（M）、普通全日制本科生群体（B1）与自考生本科生群体（B2）四个读者群的数据进行相似度分析对比。采用度量的方式是距离，数据为每个群体的借书种类集合。群体相异度计算系数定义如下的距离公式。则相似度的计算为S=1-d(O1,O2)。其中，O1,O2为两个读者对象群，X1，X2分别为两个对象群有借书种类集合，根据相似度计算公式得到表2的读者群的相似计算矩阵。从这个模型可以看出：（1）T1与T2的借阅相似度小，T1因工作需要，所借阅的B类(哲学宗教类)、D类（政治法律类）、H类(语言文字类)、I类(文学类)、K类(历史地理类)、F类(经济类)、S类(农业科学)、Q类(生物科学类和T类(工业技术类)较多，而T2借阅图书的总量相对比较少，所借阅的书以K类(历史地理类)、I类(文学类)及R（医学类）的图书为主；（2）T1与D的借阅相似度也不大，借阅量小，说明某校的博士生读者群受教师指导不够，以自学为主的同时也说明图书馆适合这个读者层阅读的纸本文献资源不足，要加大资金投入力度；T1与M的相似度达0.79，说明这两个读者群共同的阅读偏好相似度高，可以根据其阅读兴趣特点做好相同类别的图书文献资源准备和资源推介工作，T1与B1、B2的阅读相似度高达0.83、0.85，因为需求量大，对相似度高的图书类别增加种类和复本的采购，同时还要加强对这些类别的图书的宣传和推介,以保持他们的忠诚度。

1.2.3读者群与借阅图书分析依据表1和表2，将读者群的属性分为T1、T2、D、M、B1、B2；将所借阅读书种类排名TOP10的图书类别，即：H、I、T、B、F、K、O、J、Q、S类的数据置于表3，建立读者借阅模型。读者群与借阅图书模型，要说明的是读者群与所借阅图书的关系。从表3中，可以看出以下几个方面的问题。（1）一线教师读者群（T1）以借阅I、B、F、S、Q等类别的图书比较多，这说明一线教师读者群专注人文、心理学、专业知识的学习，但总体对纸本图书的利用率是比较低的，从电子资源利用调查研究可以知道教师读者群利用电子资源较多。行政管理教职工读者群（T2）纸本图书借阅量小，其中文学、医学类的图书借阅量稍有一点，说明个人的学习偏好重在人文和养生；（2）某校的博士生读者群所借阅的图书量特别少，而且与T1的关联性不大，其中H、S、Q等类的书相对多一些，无I、K类，说明某校博士生读者群在校人数少，在职人数多；而图书馆适合博士生的专业图书和外文图书不足；博士读者群利用电子文献资源及所在院系的专业文献资源更多一些，更主要的是博士读者群要加强人文教育；（3）某校目前硕士研究生读者群有4285人，M所借阅的F、B、H、T等类别图书较多，与T1关联度大，与B1、B2相似度高。说明某校在研究生培养方法，延用了本科生的培养方法，还有待提高和改进；（4）普通全日制本科生读者群目前办证人数达26073人（含独立学院学生8125人），他们的阅读范围广，涵盖了某校开设的所有专业和课程，他们所需求的文献信息主要是学科基础知识、教辅图书、专业拓展图书、考试用书等，与T1的关联性大，说明B1是在T1的指导下进行学习的；（5）B2（自考生读者群）的借阅图书类型与T1的关联性大，与B1、M相似度也非常高，说明自考生读者群所需文献资源B1、M比较接近，某校的研究生生源有很大一部分来自考生读者群，且会在很多时候沿用本科的学习方法。图书馆在为这部分读者做好资源准备和服务的同时还可以推介一些好的学习方法。

2结语

通过对五类读者群的借阅数据分析，从借阅行为模型来看，一线教师与行政管理教师相似度不大，本科生、自考生与研究生的相似度很大，这有助于图书馆对不同的读者群进行个性化服务，提高图书馆的服务质量。

作者：李煦戴小鹏黄尧胡秀琴单位：湖南农业大学图书馆湖南农业大学信息科学技术学院

数据挖掘的读者群行为模型研究范文

精品推荐

扩展阅读

推荐期刊

数据

大数据

大数据时代

电力大数据