您现在的位置: 新晨范文网 >> 工业论文 >> 数据挖掘论文 >> 正文

基于Web的数据挖掘技术分析

2015/12/31 阅读:

1基于Web的数据挖掘技术的应用背景

如今,为了适应网络社会的要求,涉及商务、政务、学习等各个方面的各式各样的网站也像雨后春笋一样纷纷涌现。网上的数据资源空前丰富,网络,以其独有的魅力吸引着越来越多的领域。丰富的信息量是网络的一个显著特点,给用户带来眼界的开阔的同时,网络上广泛分布的信息资源又给用户增加了困难:在浩如烟海的网络世界,网络用户想寻找自己的感兴趣的信息,如果盲目地去找,无异于大海捞针。对于自己所需的信息资源,用户不知道如何做到更有效地发现。关于网站可用性问题,据发达国家所开展的调查结果不难发现,企业网站中超过90%的都存在着比较差的可用性,其中70%的企业不满意于本企业的网站。而专门针对用户的调查显示:用户在商业网站上找到自己所需要的信息的几率居然只有42%。这个数据显示用户在找自己所需的信息时不够方便、快捷,这种不便所造成的潜在的损失销售额比例高达50%。此外,虽然事先钟情于某件商品,但最终因网站比较差的可用性而放弃寻找欲购商品的几率也高达62%。为什么网站可用性如此之差呢?究其原因,还是因为网站设计者缺少对用户需求的了解,企业在设计网站时,其结构组织不完全符合用户的任务以及他们所看到的信息空间的方式。为了改变这种现状,更好地发挥网站的作用,以更好的满足访问者的需求。网络用户的访问兴趣、访问频度以及访问时间是网站经营者最应该关注到的内容,结合这些方面,可以对网站的页面结构进行动态的调整以及对其积极地改进服务,进而开展有针对性的电子商务。而通过挖掘web数据资源,我们就可以从中提取到我们所需的知识,上文提到的网络用户的访问行为、频度以及内容等信息,都可以通过群体用户访问行为以及方式得到,进而改进web服务的设计。

2关于数据挖掘技术及基于Web的数据挖掘技术

数据挖掘产生于上个世纪六十年代,当时的数据挖掘技术已经实现许多功能,如应用数据库和信息技术,就不限于只是处理原始文件,而是可以系统地演化到复杂的、功能强大的数据库系统的功能。随后几年,数据处理技术仍在不断发展中,尤其是近几年来,不少数据库可以提供查询和事务处理,这么大量的数据库系统的付诸实践,下一个目标开始显现,即数据分析和理解。为了提高信息的利用率,把这些数据转化成有用的信息和知识,就可以通过数据挖掘,获取到有用的信息,这将非常有利于企业的决策和业务。正是为了适应这种要求,数据挖掘技术诞生了,如今,并且越来越显示出强大的生命力。

3数据挖掘的基本含义

数据挖掘有一些同义词,这些同义词与其意义相近,如数据融合、数据分析以及决策支持等。数据挖掘技术的定义包含如下几层含义:(1)真实的、大量的数据源,还必须是含噪声的;(2)发现用户感兴趣的知识是数据挖掘技术的目标。在进行数据挖掘中,会发现一些知识可接受、可理解、可运用,但却不要求这些知识放之四海而皆准。如果做广义的理解,数据、信息,这些也是知识的表现形式。当然,在通常情况下,概念、规则、模式以及规律和约束更容易被人们视作知识。数据,则被人们看作是形成知识的源泉。

4数据挖掘的基本过程

数据挖掘,说到底其实就是从大量数据中不断抽取出将有价值的信息或知识,这是一个循环往复的过程。每一种数据挖掘技术方法有它自身的特点以及实现步骤,各种不同形式的算法应用适用领域的含义以及能力都存在差异。因此,应用数据挖掘所要达到的目标、算法选择、问题领域专家支持程度以及数据收集完整程度等,成功应用数据挖掘技术以达到目标的过程本身就是一件非常复杂的事情。一般来说,数据挖掘的基本过程包括五项任务,这五项任务即:理解问题、理解、收集和准备数据、建立数据挖掘模型、评价并应用所建模型等。

5数据挖掘的基本模式和功能

对于用户来说,他们并不知道什么类型的模式才是有趣的,为了适应不同的用户需求或不同的应用,数据挖掘系统自身要能够挖掘出多种类型的模式。根据数据挖掘的不同功能,数据挖掘可以分为预测型和描述型两种基本模式。数据挖掘的功能分类包括几项内容,分别如下:(1)概念描述。通过多种方法对数据间相互关联的类或者概念加以描述就是概念描述。方法包括数据区分、数据特征化、概念特征化以及比较等。通过这些方法对数据进行汇总的、简洁的、精确的分类等。概念描述自然应该属于描述型数据挖掘类型。(2)关联分析。通过关联分析满足一定条件的依赖性关系可以被挖掘出,这也就是关联规则。关联规则形如A卜>A2,支持度=s%,置信度=c%”,这里的S和c分别指用户指定的支持度以及置信度的闽值。关联规则可以分为单层和多层、单维和多维。(3)分类和预测。为了使用模型预测未知类型的数据,分析训练数据集(即己知的数据对象),找出并区分数据类的描述。对数据对象的类标记作出预测是进行合适的分类后可以实现的,即便某些空的或者不知道的数据值,也可以被预测出来。(4)聚类分析。所谓聚类分析,顾名思义,即按照最小化类间的相似性以及最大化类内的相似性对对象进行分组。分组后,一个簇中的对象可以与其它簇中的对象很不相似,它们自身具有很高的相似性。和分类相比,聚类的特点直接对数据进行处理,而分类是基于训练数据的。

作者:张嘉丰 单位:无锡机电高等职业技术学校

基于Web的数据挖掘技术分析

2015/12/31 阅读:

推荐度:

免费复制文章