充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

浅析数据仓库、联机分析处理和数据挖掘



1 引 言

    随着计算机技术和网络技术的飞速发展和数据库应用的不断深化,数据仓库和数据挖掘技术及其应用已成为计算机科学技术领域的热点之一。目前,计算机科学技术界的许多专家、学者都在大力研究数据仓库的构筑技术和基于各种模V的数据挖掘算法,并取得了可喜的成果。国内外一些著名计算机企业也纷纷提出了数据仓库(DW)实施战略,推出了联机分析处理(OLAP)和数据挖掘(DM)工具。

2 概述

    2.1 数据仓库


    目前,数据库技术及其应用已从关系模型发展到面向对象模型,从单机应用发展到分布式应用,从局域网数据库应用发展到Web数据库应用,从联机事务处理发展到联机分析处理,从数据库发展到数据仓库,从数据的统计分析发展到数据挖掘。由于以前面向事务处理的传统数据库系统不再适应新形势下决策分析的需要,比如对响应时间的要求上计时单位小;数据结构只适合操作计算而不适合分析;在进行管理预测、决策时不能满足大量全面、正确的集成数据等。因此提出数据仓库(Data Warhouse,简称DW)。

    W.H.Inmon对数据仓库的定义:是一个用于支持管理决策,面向主题的、集成的、非易失的、且随时间变化的数据集合。它用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一的用户接口,完成数据查询和分析。需要指出的是,DW中的数据并不是最新的、专有的,而是来源于其它数据库的。它作为决策支持系统(DSS)服务基础的分析型数据库,用来存放大容量的只读数据,为制定决策提供所需要的信息。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而原有的事务处理数据库在总体数据环境中承担的是日常基础业务的处理任务。

    自从NCR公司为Wal Mart建立了第一个数据仓库以来,DW为企业、银行、电信等部门提供了巨大的收益。以数据仓库在银行的应用为例.银行可以用它来取得各个重要方面的数据与分析结果,例如利润、市场分析和风险管理等,进而改善银行的自身管理。比如了解其公司面临的风险,包括备项事务及整个银行所有业务面临的风险;对市场和法规条例的需要迅速做出反应等。此外,DW对于客户管理和营销还有许许多多的好处,它能够在客户还未认识到自己的某种需要之前就预测到客户的需要。比方说,银行将知道客户的汽车已用了5年,所以将建议向他提供一笔汽车贷款,帮助他更快地买到新车;银行将知道新生儿出世的消息,并向其家庭建议一个更高层次的教育计划。了解到的客户信息越多,银行就越能够更好地预测下一个潜在的业务,并通过交叉推销来提供更多的服务。只有数据仓库环境才能提供这种信息。数据仓库不是一个静止不变的产品,而是,个动态的、不停变化的过程——这个过程为企业的管理系统奠定信息基础。

    2.2 联机分析处理

    联机分析处理(On-LineA nalyticalPr ocessing,简称OLAP)是一类软件技术,它们使业务分析师或决策者等能够快速、一致、交互式地探查数据,用户看到的是经过转换后的原始数据的各种信息视图,这样可以反映业务的真实维数。OLAP的特点:①OLAP利用多用户的客户机服务器模式(US)在线进行快速响应、实现交互操作:OLAP帮助用户通过对比性的个性化查看方式,以及对各种数据模型场景中的历史数据和预计数据进行分析,将业务信息综合起来。用户可以在分析中定义新的专用计算,并可以以任何希望的方式报告数据。②用多维进行信息变换,可以在不同维观察数据。

    OLAP和传统的联机事务处理(On-Line Transaction Processing,OLTP)是两种性质不同的熬据处理方式。OLTP主要用来完成基础业务数据的增、删、改等操作,如民航订票系统、银行储蓄系统等,它对响应时间要求比较高,强调的是密集数据更新处理的性能和系统的可靠性及效率。而OLAP应用是对用户当前及历史数据进行分析、辅助领导决策,主要通过多维数据的查询、旋转、钻取和切片等关键技术对数据进行分析和报表。

    2.3 数据挖掘

    如今随着因特网的流行,已经将我们淹没在数据和信息的汪洋大海中,存储数据的爆炸性增长已激发对新技术和自动工具的需求,以便帮助我们将海量数据转换成有用的信息和知识。因此提出数据挖掘(Data Mining,简称DM)。由于DM是从关系数据库、数据仓库、WEB数据库以及其他文件系统中发现重要的数据模式、规律的过程,所以又称为数据库中的知识发现(Knowledge Discovery in Database,简记为KDD)。这些知识是隐含的、事先未知的有用信息,提取的知识表现为概念、规则、模式、规律等形式,以帮助管理者做出正确的决策。可以说DM是OLAP的高级阶段。

    数据挖掘通过预测末来趋势及行为,做出前摄的、基于知识的决策。它的目标是从数据库中发现隐含的、有意义的知识,主要有自动预测趋势和行为(例如市场预测问题)、关联分析(指两个或多个变量的取值之间存在的某种规律性)、聚类(指数据库中的记录可被化分为一系列有意义的子集,聚类技术主要包括传统的模式识别方法和数学分类学)、概念描述(分为特征性描述和区别性描述,生成区别性描述的方法有决策树方法、遗传算法等)和偏差检测等功能。

    现在DM可以应用在包括财务、营销、银行、通讯、制造业在内的诸多领域。例如某超市需要设计一个吸引客人购买商品的最佳环境。通过对客人的采购路线和消费记录的挖掘发现:女性的视线高度是152厘米左右,而男性是165厘米左右,最适宜的视线角度是视线高度以下15度。因此,最好的货品摆设位置是在132到136厘米之间。按照DM找出的特别信息,该超市里的主打产品,总是摆在最容易发现的高度区内。更进一步来说,知道客户每次采购时会买哪些产品以后,就可以利用DM中的趋势分析功能,找出长期的经常性购买行为;再将这些资料与主数据库的人口统计资料结合在一起,这样营销部门就可以根据每个家庭的“弱点”,也就是在哪个季节倾向于购买哪些产品的特性来随时做出决策。所以DM的最大特点是能够建立预测模型,预测未来的情况。

21/212>


 

评分:0

我来说两句