您现在的位置: 新晨范文网 >> 工程论文 >> 计算机工程论文 >> 正文

数据挖掘技术应用

2010/11/11 阅读:

1、数据挖掘概念

数据挖掘(DataMining,DM),是随着数据库和人工智能发展起来的新兴的信息处理技术。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。

2、数据挖掘技术

2.1关联规则方法

关联规则是一种简单,实用的分析规则,描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,所挖掘出的关联规则量往往非常巨大,但是。并不是所有通过关联得到的属性之间的关系都有实际应用价值,对这些关联规则进行有效的评价。筛选出用户真正感兴趣的。有意义的关联规则尤为重要。

2.2分类和聚类方法

分类就是假定数据库中的每个对象属于一个预先给定的类。从而将数据库中的数据分配到给定的类中。而聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异。分类和聚类的区别在于分类事先知道类别数和各类的典型特征,而聚类则事先不知道。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价。

2.3数据统计方法

使用这些方法一般首先建立一个数据模型或统计模型,然后根据这种模型提取有关的知识。传统的统计学为数据挖掘提供了许多判别和回归分析方法。贝叶斯推理、回归分析、方差分析等技术是许多挖掘应用中有力的工具之一。

2.4神经网络方法

神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。这些优点使得神经元网络非常适合解决数据挖掘的问题。因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类;用于分类、预测和模式识别的前馈式神经网络模型;用于联想记忆和优化计算的反馈式神经网络模型;用于聚类的自组织映射方法。新晨范文网

2.5决策树方法

决策树学习是一种通过逼近离散值日标函数的方法,把实例从根结点排列到某个叶子结点来分类实例。叶子结点即为实例所属的分类,利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段。建立决策树的一个结点,再根据字段的不同取值建立树的分支;在每个分枝子集中,重复建立树的下层结点和分支的过程,即可建立决策树。

2.6粗糙集

粗糙集(RoughSet)能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据备个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

数据挖掘技术应用

2010/11/11 阅读:

推荐度:

免费复制文章