数据挖掘在电子阅读营销中的应用范文

时间：2022-12-25 09:57:03

数据挖掘在电子阅读营销中的应用

阅读是人类获取知识的一种方式。人们可以根据自己的兴趣爱好来选择相关的内容进行阅读。在过去的时候我们主要是以阅读纸质的图书为主，比如图书、报纸、杂志等纸质读物。但是随着信息技术的发展，尤其网络通信技术和智能移动终端技术的不断创新和发展使得人们的阅读方式在原有的基础上发生了重大的改变即诞生了电子书。电子书以其容量大、体积小、携带方便等优点受到了广大消费者的欢迎。随着人们的对电子书的阅读体验要求越来越高。而且从互联网中搜索读者感兴趣的资料，如大海捞针既盲目又浪费了好多宝贵时间。因此需要付费的电子书或相关的网站便应运而生。付费阅读也因其质优价廉的服务深受广大读者的喜爱。随着阅读电子书的群体不断壮大，所以付费阅读的市场也在随着不断变大。因此存在着大量的潜在客户。如何从这些潜在的客户中挖掘出自己真正的客户从而来增加收入成为了摆在提供付费阅读公司的面前的一个难题。本文则根据读者的行为数据借助数据挖掘的方法，从大量的未付费的读者中找出极有可能付费的读者，从而根据他们的兴趣爱好采取相关的营销策略，使他们转化为付费读者。从而达到精准营销[3]的目的。

1.数据挖掘

数据挖掘[2]作为一种多学科综合的产物，综合利用人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，自动分析数据并从中得到潜在隐含的知识，从而帮助决策者做出合理并正确的决策。

1.1数据挖掘的功能目前数据挖掘的主要功能包括概念描述、关联分析、分类、聚类和偏差检测等。概念描述主要用于描述对象内涵并且概括对象相关特征，概念描述分为特征性描述和区别性描述，特征性描述描述对象的相同特征，区别性描述描述对象的不同特征；关联分析主要用来发现数据库中相关的知识以及数据之间的规律，关联分为简单关联、时序关联、因果关联；分类和聚类就是根据需要训练相应的样本来对数据分类和合并；偏差分析用于对对象中异常数据的检测。

1.2数据挖掘过程数据挖掘主要分3个阶段：数据准备、数据挖掘、结果的评价和表达。数据准备主要是完成对大量数据的选择、净化、推测、转换、数据的缩减，数据准备阶段的工作好坏将影响到数据挖掘的效率和准确度以及最终模式的有效性，在数据准备阶段可以消除在挖掘过程中无用的数据，从而提高数据挖掘的效率和准确度；数据挖掘的工作首先需要选择相应的挖掘实施算法，例如决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等，然后对数据进行分析，从而得到知识的模型；结果评价和表达主要是确定知识的模式模型是否有效以便发现有意义的模型

数据挖掘分类算法分类[1]是一种重要的数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型（也常常称作分类器），该模型能把未知类别的样本映射到给定类别中的某一个。分类和回归都可以用于预测。和回归方法不同的是，分类的输出是离散的类别值，而回归的输出是连续或有序值。构造模型的过程一般分为训练和测试两个阶段。在构造模型之前，要求将数据集随机地分为训练数据集和测试数据集。在训练阶段，使用训练数据集，通过分析由属性描述的数据库元组来构造模型，假定每个元组属于一个预定义的类，由一个称作类标号属性的属性来确定。在测试阶段，使用测试数据集来评估模型的分类准确率，如果认为模型的准确率可以接受，就可以用该模型对其它数据元组进行分类。常用的分类算法有决策树、K-NN[5]、朴素贝叶斯[6]等算法。

2.相关工作

2.1数据理解拿到读者阅读的行为数据后，首先要看一下数据具有哪些属性，各个属性都代表什么含义。有些属性的信息我们可以从数据的属性名称中获得，有的则需要我们进一部分析其含义。除此之外在看到数据后我们要明确我们要拿这些数据干什么。在明确了以上几点后我们要看看数据的完整性和合理性。是否存在异常值和缺失值。如果存在以上问题的话我们要采用相应的方法进行处理。以下阅读数据各个字段的名称由于涉及读者隐私我们将属性中的电话一列删除。

2.2.K-NN算法

2.2.1K-NN算法原理k-NN算法的核心思想:如果一个样本在特征空间中的k个最邻近的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。k-NN方法在类别决策时，只与极少量的相邻样本有关。图中正方形要被决定赋予哪个类，是三角形还是圆形？如果k=3，我们从图中找出与正方形距离最近的三个图形。由于三角形所占比例为2/3，那么我们则认为正方形和三角形属于一类，如果k=7，由于圆形的比例为4/7，因此我们认为正方形和圆形属于一类。

2.2.2K-NN算法步骤算法步骤：(1)初始化距离为最大距离(2)计算未知样本和每个训练样本的距离dist(3)得到目前k个最临近样本中的最大距离maxdist(4)如果dist小于maxdist，则将该训练样本作为K-最近邻样本(5)重复步骤2、3、4，直到未知样本和所有训练样本的距离都算完(6)统计K-最近邻样本中每个类标号出现的次数(7)选择出现频率最大的类标号作为未知样本的类标号

2.2.3距离计算计算各数据集各数据对象之间的距离即“亲疏程度”时可以根据实际的需要选择欧氏距离（EuclideanDistance）、切比雪夫距离（ChebyshevDistance）、Block距离等。由于k-NN算法所处理的变量为数值类型的，因此本文采用欧氏距离进行计算，即数据点x和y之间的欧氏距离是两点的P个变量值之差的平方和的平方根，数学定义为：

3实验和分析

3.1实验（1）数据来源：本文来源于某个提供电子阅读服务的网站，从中随机的抽取400百条作为实验数据，其中300条做作为模型训练数据，剩下的100条作为模型的测试数据。（2）实验工具：SDABASDM[4]（3）实验设计：数据信息如上表表1所示。我们将数据中的付费属性作为每条数据的标签属性。由于表中的付费属性波动比较大,这里我们人为的将该属性设置为yes/no(付费用户为yes未付费用户为no)处理后数据如下表所示。利用训练数据创建模型，并用测试数据进行验证，同时采用准确率和召回率两个指标来判断模型的好坏。

3.2分析当k=3得到如下结果观察当k取3和5两个不同值时的结果，我们可以发现当k=3是的准确率为76%当k=5准确率为78%；当k=3时，两个类别的召回率分别为81.25%和55.00%，当k=5时两个类别的召回率分别为83.25%和55.00%。从上面的两个指标比较发现将k值设置为5的时，模型的准确率较高，故模型效果较好。上面的两个实验我们把所有的数据属性都用于建模，但是实际情况中并不是所有的属性对建模有用，里面可能存在一些和建模无关的属性，所以我们需要适当的删除一些对建模没用的属性。通过分析数据我们认为下载次数、城市ID、是否为新用户、订阅次数、记录日期、阅读章节数这几个属性对创建模型影响不大，不将这些属性用于建模。那么剩下的用于建模的属性为总登陆数、点击次数、移动设备登陆次数。由于这三个属性都是数值型的数据，离散程度比较大，所以我们将这三个属性的数据离散为几个等级然后用于建模。等级的个数我们用n表示。观察上面的结果当k=3，n=3时accuracy:82.00%，classre－call分别为82.50%和80.00%；当k=5，n=3时accuracy:74.00%，classrecall分别为82.50%和80.00%；同过比较准确率和召回率我们可以发现将参数k和n的值都设定为3时，模型的效果比较好。当k=5，n=3时有一个召回率的值为0，不符合实际。故将模型参数设置为k=3，n=5。

4结束语

通过利用训练数据和测试数据，我们采用数据挖掘分类算法中的K-NN算法，应用SDABAS-DM软件构建了读者的分类模型，我们可以从大量的未付费读者的数据中，利用该分类模型从中找出可能付费的潜在读者。从而有目的的采取相应的营销手段来增加付费用户的数量。另外随着数据量的积累越来越多，我们将会采用更多具有代表性的数据集来作为训练数据，这样分类模型将更加合理和完善从而达到精准营销的目的。

作者：蔺晓栋刘博殷旭单位：北京信息科技大学

上一篇：流道面开槽的数控加工研究范文
下一篇：数据挖掘在银行运营管理中的应用范文

数据挖掘在电子阅读营销中的应用范文

精品推荐

扩展阅读

推荐期刊

数据

大数据

大数据时代

电力大数据