充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

基于OLAP与DM一体化思想的数据建模技术的研究



1 引 言

    随着数据仓库技术的不断发展和应用,OLAP和数据挖掘已成为该领域研究的重点。OLAP(联机分析处理)是利用存储在数据仓库中的数据,根据用户提出的问题或假设,去进行各种分析操作, 并以较为直观易懂的形式将结果返回给用户。OLAP具有提供数据的多维逻辑视图、快速响应用户分析请求、为用户提供强大的统计、分析功能等一些特点。DM(数据挖掘)则是采用复杂的统计分析和建模技术去挖掘出隐藏在数据库中的关系和模式。简单地讲,即是从已有的大量数据中挖掘出一些潜在的有用信息。它最为显著的特点是分析过程的自动化和知识发现。

    OLAP和DM都是DSS(决策支持系统)的重要组成部分,两者既有区别又有联系。可以把OLAP和DM看作两种不同类型的模型:描述性的和预测性的。所谓描述性模型是利用现有数据描述出一些模式以指导决策;而预测性模型则是用已有的数据去预测未知的数据。这两种模型的本质区别在于:预测性模型产生的是一个直接的预测结果;而描述性模型仅仅提供了一种隐含的预测信息。就对数据分析的深度而言,OLAP位于较浅的层次;DM能从更深的层次上发现OLAP所不能发现的信息。

    由此不难看出,OLAP与DM并非是完全孤立的两个部分。与此同时,由于OLAP和DM本身所带有的一些缺点,如OLAP缺乏灵活性、准确性,而DM代价高昂、实现困难等,因此,如何将两者结合起来实现一体化即实现OLAP基础上的多维数据挖掘,已成为目前DSS 领域研究的新方向。

    把OLAP与DM一体化的思想融入数据仓库的模型建立过程,将会从根本上为两者的结合提供支持。下面将详细介绍基于OLAP与DM一体化的数据建模技术,并从动态的建模过程和静态的空间结构两个方面对其进行说明。

2 动态建模过程

    无论OLAP还是DM都是一个完整的分析过程的一部分,而这个完整的分析过程可以理解为是一系列相互影响的数据模型的建立过程。这个过程可以分成四个阶段:(1)描述模型;(2)解释模型;(3)预测模型;(4)决策模型。如图1所示。

图1 数据模型的建立过程
图1 数据模型的建立过程


    2.1 描述模型(Descriptive Models)

    大多数OLAP工具及早期的使用大都基于这种模型的基础之上。聚合就是该模型的一种形式。也可以说,描述模型就是一个数据空间加上它的聚合空间。典型的聚合运算有:求和、平均值、中值等等,这些又被称之为描述性统计。这是分析过程的第一阶段。

    2.2 解释模型(Explanatory Models)

    该模型定义了描述信息之间的关系。这些关系既可能十分简单如线形关系,也可能比较复杂。数据挖掘就是该模型应用的一个方面。但应该注意的是,当所用的数据子集或信息的详细程度发生变化时,这些关系可能会随之变化。

    2.3 预测模型(Predictive Models)

    预测模型会利用已经发现的各种关系推测出更多的描述信息。这些描述性信息是在原有描述模型基础上对其进行的扩展,即预测信息。在数据挖掘中用于关系发现的各种算法同样可以用于预测。预测模型所要完成的基本任务就是:分析历史数据的各种内部关系并就这些关系的发展变化作出假设。

    2.4 决策模型(Prescriptive Models)

    决策模型是用预测信息和目标信息去指导一个决策过程。该模型所提供的信息即是决策信息,也就是整个分析过程的最终结果。

    这里有两点需要说明的是:

    这四个阶段应形成一个循环。从收集的数据中挖掘出各种关系,并利用这些关系进行预测,再将预测结果与目标结合起来形成最终的决策,决策实施后又会产生新的数据。最后,用已发现的关系去分析这些数据,以便判断解释模型的准确度。如果不能取得满意的效果,则可进一步改进模型,进行新的预测,产生新决策,生成新数据。简言之,这四个阶段即形成了一个科学方法:观察——假设——实践——观察。

    任何一个阶段的工作都必须建立在前一阶段工作的基础之上。

    另外,还需强调指出的一点是:有一种普遍存在的错误观点认为:OLAP是对汇总数据进行处理,而DM是对详细数据进行处理。并且由于容量限制,大部分的多维数据库把不完全聚合的数据仓库作为起点。但实际上,一个按维度组织的数据仓库只要具有一个大的详细事实表就可称之为多维结构,也就是说,多维是从底层开始的。就多维数据而言,并非一定要是聚合后的数据。只不过,在详细数据层不一定会有让人感兴趣的信息,许多有用信息往往存在于聚合层次上。因此,大多数情况下,数据挖掘与OLAP是紧密结合,并行进行的。

    以上讨论的是整个数据模型的动态建立过程。下面将从静态的维度空间对数据模型加以描述。

21/212>


 

评分:0

我来说两句