充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

数据挖掘知识浅述



    数据挖掘是一种较新的技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合,在一个大型数据库中,自动的发现有用信息的过程,还具有预测未来观测结果的能力。数据挖掘(data mining)是20世纪末刚兴起的数据分析技术,由于其所具有的广泛应用前景而备受关注。数据挖掘也通常被称为数据知识发现,它可以从数据库、数据仓库或者其它的数据源中,通过分析,自动抽取归纳出有价值的知识模式。

    在一家超市中,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了大量的利润,但是如何从浩如烟海却又杂乱无章的数据中,发现啤酒和尿布销售之间的联系呢?这又给了我们什么样的启示呢?实际上这个例子就是通过分析商场销售数据,然后进行数据挖掘得出的结果。还有我们经常使用网络搜索、淘宝上商品搜索等,都应用到数据挖掘技术。下面我们就简单介绍下数据挖掘的相关知识。

一、数据挖掘的定义

    数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

二、数据挖掘的过程

    数据挖掘是一个多领域知识交叉的研究与应用领域,设计的领域包括:数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、信息检索、高性能计算等。数据挖掘的过程大致分为:问题定义、数据收集与预处理、数据挖掘实施,以及挖掘结果的解释与评估。

    1.问题定义

    数据挖掘是为了从大量数据中发现有用的令人感兴趣的信息,因此发现何种知识就成为整个过程中的第一个也是最重要的一个阶段。在这个过程中,必须明确数据挖掘任务的具体需求,同时确定数据挖掘所需要采用的具体方法。

    2.数据收集与预处理

    这个过程主要包括:数据选择、数据预处理和数据转换。

    数据选择的目的就是确定数据挖掘任务所涉及的操作数据对象(目标数据),也就是根据数据挖掘任务的具体要求,从相关数据源中抽取与挖掘任务相关的数据集。

    数据预处理通常包括消除噪音、遗漏数据处理、消除重复数据、数据类型转换等处理。

    数据转换的主要目的是消减数据集合和特征维数(简称降维),即从初始特征中筛选出真正的与挖掘任务相关的特征,以提高数据挖掘的效率。

    3.数据挖掘的实施

    根据挖掘任务定义及已有的方法(分类、聚类、关联等)选择数据挖掘实施算法。

    4.结果解释与评估

    实施数据挖掘所获得的挖掘结果,需要进行评估分析,以便有效发现有意义的知识模式。因为数据挖掘所获得初始结果中可能存在冗余或者无意义的模式,也可能所获得的模式不满足挖掘任务的需要,这是就需要退回到前面的挖掘阶段,重新选择数据、采用新的数据变换方法、设定新的参数值,甚至换一种数据挖掘算法等。此外还需要对所发现的模式进行可视化,表示将挖掘结果转换为用户易懂的另一种表示方法。

    数据挖掘的实施,仅仅是整个数据挖掘过程的一个步骤。影响数据挖掘质量的两个因素分别是:所采用的数据挖掘方法的有效性;用于数据挖掘的数据质量和数据规模。如果选择的数据集合不合适,或进行了不恰当的转换,就不能获得好的挖掘结果。

    整个数据挖掘是一个不断反馈修正的过程。当用户在挖掘过程中,发现所选择的数据不合适,或使用的挖掘方法无法获得期望结果,则用户就需要重复进行挖掘过程,甚至需要从头开始。


21/212>


 

评分:0

我来说两句