充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

数据仓库中联机分析处理技术的研究



    数据仓库的建立为有效利用数据资源及帮助进行管理决策奠定了基础,但对数据仓库中的数据进行分析必须要有功能强大的工具支持。联机分析处理就是一个得到广泛使用的基于数据仓库的数据分析技术,它能够根据分析人员的要求,快速灵活地对大量数据进行复杂的查询处理,并以直观和易于理解的方式提供给使用者。

一、OLAP的基本概念

    OLAP是基于多维数据模型的,为了更好地理解OLAP,必须首先了解相关的概念。

    1.度量值

    度量值是人们观察事物的焦点,一般具有可加性。在多维数据集中,度量值存放于多维数据集的事实数据表中。它的选择取决于最终用户所请求的信息类型。

    2.维

    维是指人们观察事务的角度。人们观察数据的某个特定角度还可以存在细节程度不同的多个描述层次,我们称这些层次为维的层次。维的一个取值称为该维的一个维成员。如果维已经分成了多个层次,则维成员就是不同维层次取值的组合。

    3.多维数据集

    所有同质的度量值及其关联的维的维成员构成一个多维数据集。多维数据集能支持各种各样的查询,是OLAP的核心。多维数据集可以用多维数据库实现,也可以用关系数据库实现。

    4.虚拟维度

    虚拟维度是基于物理维度内容的逻辑维度。这些内容可以是物理维度中的现有成员的属性,也可以是物理维度的表中的列。使用虚拟维度,可以基于多维数据集中的维度成员的成员属性对多维数据集数据进行分析,并且不需要占用额外的磁盘空间或处理时间。虚拟维度没有聚合数据,也不会影响多维数据集的处理时间,因为它们的计算是需要时在内存中进行的。

    5.父子维度

    父子维度基于两个维度表列,这两列一起定义了维度成员中的沿袭关系。一列称为成员键列,标识每个成员;另一列称为父键列,标识每个成员的父代。所谓父代,即层次结构中的上一层节点。这两列必须用相同的数据类型,而且在同一个表内,可用于创建父子链表。父子维度的深度随其层次结构的分支而变化,所以父子维度的层次结构通常是不均衡的。

    常规维度和虚拟维度在定义时的级别数日就决定了最终用户所看到的级别数目,而父子维度则不同,它是用特殊类型的单个级别定义的,该特殊类型通常会产生最终用户所看到的多个级别。存储成员键和父键的列的内容将决定显示出的级别数目。当更新该维度表并进而处理使用该维度的多维数据集时,级别数目可能会更改。

二、OLAP的基本分析操作

    OLAP的基本操作主要包括对多维数据进行切片、切块、旋转、钻取等分析操作。这些分析操作使得用户可以从多个角度、多个侧面观察数据库中的数据,从而更加深入地了解包含在数据中的信息。

    1.切片(Slicing)

    切片操作就是在某个或某些维上选定一个属性成员,而在其他维上取一定区间的属性成员,或全部属性成员来观察数据的一种分析方式。

    2.切块(Dicing)

    切块就是在各个维上去一定区间的成员属性,或全部成员属性来观察数据的一种分析方式,可以认为切片是切块的特例,切块是切片的扩展。

    3.钻取(Drilling)

    钻取包含向下钻(Drill-down)和向上钻(Drill-up)/上卷(Roll-up)操作。下钻指从概括性的数据出发获得相应的更详细的数据,上钻则相反。钻取的深度与维度所划分的层次相对应。

    4.旋转(Pivoting)

    旋转即改变一个报告或页面显示的维方向。旋转可能包含交换行和列,或是把某一个行维移到列为中去,或包页面显示中的一个维和页面外的维进行交换。

三、多维OLAP和关系OLAP

    在实施OLAP时,有两种实施方案可供选取,一种是直接采用多维数据库进行联机分析处理,叫做多维联机分析处理,简称MOLAP。而如果采用关系数据库来存放多维数据进行联机分析处理,则称之为关系联机分析处理,简称ROLAP。如果数据是存放在多维数据库中,用户可以直接从不同的角度察看数据的聚集,而如果数据是存放在关系数据库中,则必须事先访问数据并对各个维进行数据的聚集处理。在ROLAP方式下,数据处理既可以在关系数据库中进行,也可以在中间服务器或客户端进行。在两层客户/服务器方式下,用户递交SQL查询到数据库并获得所需的结果。在三成客户/服务器结构下,用户递交多维分析请求,ROLAP引擎将请求转换为SQL递交给数据库,然后,ROLAP引擎再将从数据库获得的结果转换为多维形式共客户端查看。为了提高效率,通常事先建立并存储一些经常要用到的查询,以避免临时建立查询而耗费时间。

四、OLAP的新发展——OLAM

    OLAM简称“联机分析挖掘”,是将联机分析处理技术(OLAP)和数据挖掘技术(DM)有机地结合起来形成的一种新技术。OLAM兼有OLAP多维分析的在线性、灵活性和DM对数据处理的深入性等特点,因而在更高层次上满足对信息的分析和筛选要求。OLAM具有以下几种特性:

    OLAM应具有极大的挖掘能力,借助OLAP的支持,OLAM能挖掘任何需要的数据;

    OLAM能提供灵活的挖掘算法选择机制,并提供与外部挖掘算法的通用接口;

    OLAM的挖掘算法是基于多维数据模型的,可以和OLAP的操作灵活结合,并具有算法的回溯功能;

    基于客户/服务器体系结构,具有较高的执行效率和较快的响应速度,并且能够协调执行效率和挖掘结果的准确性。这主要在于用户交互式执行效率要高,而一旦用户选定了挖掘算法和数据空间后,则应保证最终结果的正确性。




 

评分:0

我来说两句