充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

浅谈数据仓库与OLAP技术



    随着企业管理技术的不断提升和信息系统的广泛应用和逐趋完善,企业相应的信息数据量也得到了极速增长。同时,随着数据库技术应用的发展,企业决策人对于数据的应用提出了更高的要求,己不仅仅满足于对事务处理的电子化与自动化,还希望能够提供更多的对于数据进行分析、统计、趋势预测,从而对于管理决策提供支持。由此.数据仓库及相关技术应运而生。

1 数据仓库与OLAP技术概念

    1.1 数据仓库(Data Warehouse,DW)


    数据仓库是一个面向主题的、集成的、时变的和非易失数据集合,支持管理部门的决策过程。数据仓库的构建是一个处理过程,数据仓库是—个从多个数据源收集的信息存储库,存放在一个一致的模式下并且通常驻留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新过程来构造。数据仓库系统由数据仓库、数据仓库管理系统、数据仓库工具三个部分组成。在整个系统中,DW居于核心地位,是信息挖掘的基础;数据仓库管理系统负责管理整个系统的运作;数据仓库工具则是整个系统发挥作用的关键,包含用于完成实际决策问题所需的各种查询检索工具、多维数据的OLAP分析工具、数据挖掘DM工具等,以实现决策支持的各种要求。

    1.2 联机分析处理(Online Analytical Processing,OLAP)

    联机分析处理即OLAP是一种重要的数据分析工具,它的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他认为联机事务处理OLTP(On-line Transactional Processing)己不能满足终端用户对数据库查询分析的需要,因此他提出了多维数据库和多维分析的概念,即OLAP的概念。OLAP是针对特定问题的联机数据访问和分析技术。通过对信息的多种可能观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察和分析。OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的并能够真实反映企业情况的信息进行快速、一致、交互式访问,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是为管理决策提供支持,因此可以说OLAP是多维数据分析工具的集合,使最终用户可以在多个角度、多侧面观察分析数据。从而深入了解数据中信息或内涵。

2 数据仓库与OLAP的关系

    随着数据仓库的发展,OLAP也得到了迅猛的发展。建立数据仓库的目的是为了支持管理中的决策制定过程,而OLAP作为一种多维查询和分析工具,是数据仓库功能的自然扩展,也是数据仓库中的大容量数据得以有效利用的重要保障。OLAP和数据仓库是密不可分的,但是两者具有不同的概念。数据仓库是一个包含企业历史数据的大规模数据库,这些历史数据主要用于对企业的经营决策提供分析和支持。而OLAP技术则是利用数据仓库中的数据进行联机分析,它利用多维数据集和数据聚集技术对数据仓库中的数据进行组织和汇总,用联机分析和可视化工具对这些数据迅速进行评价,将复杂的分析查询结果快速地返回用户。由此可以看出,数据仓库侧重于存储和管理面向决策主题的数据,而OLAP主要是进行多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。因此,OLAP技术与数据仓库的结合可以较好地解决传统决策支持系统既需要处理大量数据又需要进行大量数值计算的问题,进而满足决策支持或多维环境特定的查询和报表需求。

3 多维模型以及多维数据模型中的OLAP操作

    数据仓库和OLAP工具都基于多维数据模型。在多维数据库中,数据以多维方式组织,经综合汇总后,存放在多位数组中,以提高系统响应速度;在前端展现工具中,用表或图的形式通过维展现度量的值,并提供灵活的分析方式:

    (1)超立方结构(Hypercube):是指用三维或更多的维数来描述一个对象,每个维彼此垂直,数据的测量值发生在维的交叉点上。数据空间的各个部分都有相同的维属性,这种结构可应用在多维数据库和面向关系数据库的OLAP系统中,其主要特点是简化终端用户的操作。

    (2)多立方结构(Multicube):该结构是将大的数据结构分成多个多维结构,这些多维结构是大数据维数的子集,面向某一特定应用对维进行分割,即将超立方结构变为子立方结构,它具有很强的灵活性,提高了数据(特别是稀疏数据)的分析效率。多立方结构是存储稀疏矩阵的—个有效方法,并能减少计算量。复杂的系统和预先建立的通用应用倾向于使用多立方结构,以使数据结构能更好地得到调整,满足常用的应用需求。

    许多产品结合了上述两种结构,它们的数据物理结构是多立方结构,但却利用超立方结构来进行计算,结合了超立方结构的简化性和多立方结构的旋转存储特性。

    另外,OLAP多维数据还提供了多种分析操作,常用有以下操作:   

    (1)上卷:上卷操作通过沿—个维的概念分层向上攀升或者通过维归约,对数据立方进行聚集。当用维归约进行上卷时,—个或多个维从给定的立方体中删除。

    (2)下钻:下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入附加的维来实现。由于下钻操作对给定数据添加更多细节,也可通过添加新的维到立方体来实现。

    (3)切片和切块:切片操作对给定的立方体的一个维进行选择,导致一个子立方体。切块操作通过对两个或多个维进行选择,定义子立方体。

    (4)转轴:转轴是一种可视化操作,它转动数据的视角,提供数据的替代表示。

4 OLAP技术发展趋势

    目前,OLAP技术广泛应用于商业、金融、制造业、零售业、电信等行业中,有些企业也在迫不及待地建立自己的OLAP系统。由于OLAP技术的良好发展前景,许多专家对OLAP技术的研究成果越来越多。目前对OLAP技术的研究呈以下趋势:

    (1)OLAP技术与Data Mining(DM)、Web集成

    随着社会对增强OLAP系统的分析功能的需求和Internet/Intranet的发展,OLAP与DM、Web集成成为OLAP技术发展的一个新方向,也称为基于Web的联机分析挖掘(OLAM)。DM也称为数据库中的知识发现(KDD)。DM技术是数据仓库的又一应用,通过分析大量的原始数据,作出归纳性的推理,挖掘出潜在模式并预测客户的行为,为企业的决策者提供决策支持。OLAP与DM虽同为数据仓库的分析工具,但两者侧重点不同,前者是分析型的,后者是验证型的。数据库领域在OLAP基础上对深层次分析的需求与人工智能领域中数据挖掘技术的融合最终促成了这两种技术的结合,形成OLAM技术。OLAM技术兼有OLAP多维分析的在线性、灵活性和数据挖掘对数据处理的深入性,是数据仓库应用工具未来发展的方向。

    (2)分布式OLAP技术(Distributed OLAP)

    分布式OLAP技术是OLAP技术在分布式数据仓库上的应用。数据仓库是面向主题的、集成的、时变的、非易失的数据存储系统。它有3种体系结构—企业仓库型、数据集市型、分布型。①企业仓库型数据仓库就是通过企业数据仓库来为知识工程师提供信息服务;②数据集市型是企业数据仓库的子集,其范围限定于特定的主题,它可以在部门服务器上实现,这大大降低了数据仓库建立所需的时间和费用;③分布型就是把各个部门所建立的数据集市有效地整合起来。

    (3)OLAP与高级数据库技术相结合

    近年来随着数据库技术的发展,涌现出了一些不同数据类型的数据库系统,如面向对象数据库、对象关系型数据库、空间数据库、超文本数据库、多媒体数据库等。与此同时出现的OLAP技术包括面向对象的联机分析处理(Object-Oriented OLAP)、对象关系的联机分析处理(Object Relational OLAP)、时序联机分析处理(Temporal OLAP)等新型的OLAP技术研究方向。

5 结束语

    随着跨领域产业的出现,企业决策所需要的信息量越来越大,传统的数据库操作技术已不能满足企业决策的需求。而OLAP技术具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确的判断,从而为企业的决策支持提供服务。因此,有效的构建和使用数据仓库能为企业做出科学决策提供更优越的平台。



 

评分:0

我来说两句