充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

数据仓库和数据挖掘技术在DSS中的应用研究



引言

    数据仓库和数据挖掘技术是作为两种独立的信息技术出现的。数据仓库是从数据库技术发展而来的,为决策服务的数据组织、存储技术;数据挖掘是通过对数据库、数据仓库中的数据进行分析,获得有用知识和信息的一系列方法和技术。它们都可以完成对决策过程的支持,如将它们两者结合起来集成到一个系统中,可以更加有效地提高系统的决策支持能力。

    在国外,数据仓库和数据挖掘技术己迅速发展起来,逐渐成为决策支持的新手段。

2决策支持系统

    决策支持系统是一种帮助中高层管理人员进行决策的计算机系统,这种系统综合运用了信息论、人工智能、信息经济学、管理科学、行为科学等学科的理论、方法和技术。企业可根据自已的实际情况实施不同的DSS应用,其主要应用包括以下几个方面:销售支持、客户分析、市场研究、财务分析、运筹和战略计划等。

    传统的决策支持系统以模型库为主体,通过定量分析进行辅助决策。现在数据仓库可以把网络不同站点的商业数据集成到一起为决策提供各种类型的有效的数据分析。

3数据仓库

    3.1 数据仓库的定义及特点

    WH.lnmon对数据仓库定义为:数据仓库是一个面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制订过程。数据仓库具有的4个基本特征为:数据仓库是面向主题的,主题意指一个分析领域,是在一个较高层次上对数据进行组织、归类的标准。例如为商场营销建立的数据仓库,所选主题可能有商品、供应商、顾客等;数据仓库中的数据是集成的,数据仓库的数据的来源可分为外部和内部数据,它需经过清洗,变换成统一的数据结构进入数据仓库;数据仓库是稳定的,数据仓库保存的是大量经集成、加工的综合型数据,而不是联机数据:数据仓库是随时间变化的,为了适应DSS进行趋势分析,数据仓库内的数据随着数据仓库的刷新和数据的增加,它的内容也是变化的。数据仓库中的数据与事务处理系统的数据比较如表1所示。
 

两类数据的比较

    体系化环境的层次反映了数据与应用逻辑的抽象程度,可很好地与企业实际部门组织结构对应起来,提高企业应用数据的效率。体系化环境的层次如图1所示。
 

体系化层次环境
图1.体系化层次环境

    数据仓库系统由数据仓库、数据仓库管理系统和数据仓库工具3个部分组成。数据仓库系统的体系结构如图2所示。
 

数据仓库体系结构
图2.数据仓库体系结构

    数据仓库包含了早期细节级、当前细节级、轻度综合级、高度综合级的数据,是整个数据仓库系统的核心。数据仓库管理系统负责整个系统的运行,包括从OLTP的数据库中抽取、清洗、变换数据、维数划分以及数据的安全、备份和恢复等工作。数据仓库工具通过OLAP分析工具和数据挖掘工具实现数据分析,以提供决策支持信息来辅导领导决策仪。

    3.2数据仓库的设计方法

    数据仓库的开发方法不同于OLTP系统。其开发过程是一个数据驱动的过程,它的开发过程要经过以下几个步骤:
    (1)分析决策需求,确定数据来源;
    (2)定义数据的综合、转化过程,使系统能自动将数据从不同的数据源中提取出来后存放到数据仓库中;
    (3)建立数据仓库:
    (4)建立能使用户从数据仓库中获取所需决策信息的工具,使之能进行有效的数据访间和应用开发,并同时为用户建立适用于决策支持的数据仓库界面和应用软件。

4数据挖掘技术

    数据挖掘是一个决策支持过程,它通过对数据库中的数据进行分析做出归纳性的推理,从中挖掘出潜在的模式,以帮助决策者做出正确的判断和决策。它涉及到统计学、机器学习、数据库、模式识别、人工智能和神经网络等学科内容。数据挖掘的方法有神经网络、统计方法、决策树方法、粗集方法等。

    在当前,大多数数据仓库的应用都是进行统计、建立多维以及OLAP的分析工作。随着数据挖掘研究的深入,已经有了OLAP”和数据挖掘相结合的方法。例如在MicrosoftSQLServer2000的数据仓库解决方案中就实现了OLAP和数据挖掘相结合。

    数据挖掘过程一般分为3个主要阶段:数据准备、挖掘操作、结果表达和解释。如将数据仓库和数据挖掘协同工作,则可以简化数据挖掘的步骤,从而大大提高数据挖掘的效率。所以,数据仓库和数据挖掘相结合是决策支持的有效解决方案。

5联机分析处理(OLAP)

     OLAP是决策支持系统的核心技术之一。OLAP是将数据仓库中的数据转移到多维结构中,并且调用多维数据集来执行有效且非常复杂的查询。在多维结构中,维即观察的角度,它用超立方体或多立方体结构来描述。在关系型的数据仓库中,数据的多维视图主要是通过星型模式和雪花模式等来实现的:星型模式:中央的对象是事实表,周围的对象是维表。事实表的字段通常是一组主键,而主键的值依赖于周围的维表。其结构如图3所示;雪花模式:对星型模式的维表进一步层次化,对维的属性进行了多层次的划分。其结构如图4所示。
 

星型模式
图3.星型模式
雪花模式
图4.雪花模式

6利用SQLServer2000开发基于DW和DM的决策支持系统

    Microsoft SQLsever2000提供了一套全新的综合分析服务工具,它集成了OLAP和数据挖掘功能。其中,OLAP的分析服务提供了最完整、最具集成性的、可支持WEB的分析服务;Analysis Service集成了数据挖掘技术,它提供了两种数据挖掘算法:Microsoft决策树模型、Microsoft聚集挖掘模型。

    数据挖掘技术可帮助用户分析关系数据库和多维OLAP数据集中的数据,以获取发展模式,并对企业未来的趋势进行预测。我们利用Microsoft SQLserver2000的强大功能来开发企业的信息系统。

    6.1企业的管理系统平台

    (l)各种事务处理系统平台:服务器操作系统为WindowsServer2000;数据库管理系统采用Mierosoft SQLServer 2000;前台开发工具为Delphi7.0:运行环境为win98或其它Windows环境。

    (2)为实现决策支持系统,系统还增加的平台为:分析服务器:SQLServer 2000 Analysis Serviee。它可在SQLServer 2000安装完成后装入。OLAP开发工具:visual Basie6.0。

    6.2基于Dw+DM的决策支持系统的开发

    基于DW十DM的决策支持系统,就是以数据仓库作为底层的数据源,再加上各种数挖掘技术来构成决策支持。我们利用SQLserver 2000可建立如图5所示的数据仓库和数据挖掘技术的应用模式。在这种应用模式中,我们讨论的重点放在决策部分。
 

客户机/服务器应用模式
图5.客户机/服务器应用模式

    其开发过程如下:进行数据仓库的主题设计、确定逻辑模型和完成事实表和维表的设计;在SQLserver 2000中创建数据仓库物理数据库,其中包括事实表和维表:利用DTS数据转换服务将数据源经过数据验证、数据迁移、数据清理和数据转换4个过程进入第2步所创建的数据仓库;在分析服务器AnalysisSerVice中新建分析数据库使其连接SQLserver2000中的数据仓库:在分析服务器Analysis Service创建OLAP多维数据集;利用数据挖掘技术分析多维数据集中的数据;开发客户端分析程序。

    在Microsoft SQLServer 2000 Analysis Serviee中能支持来自在关系数据源和多维数据集这两者的数据挖掘,并且其扩展性能与第3方工具一起使用。Microsoft决策树算法是基于分类概念的算法构造树,它以树的结构显示分类的形式。其聚集算法是一种期望方法,它使用完善技术将记录分组到附近区域,以展示相似和可预测的特征。在客户端应用分析程序中,可通过ADOMD数据对象接口和MDX语法以及OLEDBforOLAPServer来读取多维数据集的数据。构建MDX语句是生成OLAP对象链接和嵌入式数据库(OLEDB)的关键。SQLServer2000中把MDX语句作为T-sQL语句的扩充部分。其语法格式如下:

         SELECT<axis_speeifieation>[,<axis_sPeeifieation>]
     FROM<eube一sPeeifiation>
         WHERE<slieer--sPeeifieation>

    其中:
    axis-specification:取代传统的数据列列表,它是指定所要显示的维。
    cube--specifiatinn:取代传统的表,它是指定所要查询的多维数据集。
    slicer--specification:指定所要查询维中的成员列出来的过滤条件。
    VisualBasic是功能强大的面向对象的可视化的程序开发工具,我们可以将MDX语句嵌入到Vosual Basic中来开发客户端分析程序。

7结束语

    数据仓库+数据挖掘技术为DSS研制与开发提供了一种有效、可行的体系化解决方案。数据仓库和数据挖掘技术在企业决策支持系统中的应用将随着现代社会商业模式的变革而进一步普及和深入。

    在未来大规模定制经济环境下,数据仓库将成为企业获得竞争优势的关键武器。




 

评分:0

我来说两句