充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

采用多服务器提高小型OLAP系统综合性能的研究



1 前 言

    联机分析处理(OLAP)是利用存储在数据仓库中的数据完成各种分析操作,并以直观易佳的形式将分析结果返回给决策分析人员,如今OLAP技术处于所有数据处理技术的前沿,它快速、一致、交互地访问数据仓库细节数据和数据仓库综合数据(概括数据),帮助数据分析人员、管理人员和决策人员洞察数据的奥秘,掌握隐于其中的规律。OLAP力图处理数据仓库中浩如烟海的数据,并将之转化为有用的信息,从而实现对数据的归纳、分析和处理,帮助企业完成决策。OLAP支持最终用户进行动态多维分析、其中包括跨维、在不同层次之间跨成员地计算和建模;在时间序列上的趋势分析、预测分析;切片和切块,并在屏幕上显示,从宏观到徽观,对数据进行深入分析;可查询到底层的细节数据;在观察区域中旋转,进行不同维间的比较。自1993年E.F.Codd提出OLAP的概念以来这项技术已得到深入研究与广泛应用。

    本文作者采用OLAP技术作为数据分析处理的核心实现了全德国房地产分析系统。此系统是为投资者提供在德国境内房地产投资方面的咨询和投资盈利预测。

    由于数据量不断地增大,查询复杂化和显示多样化需求不断地增加,人们对此系统的性能提出了更高的要求针对房地产类数据分析的特点,笔者在实现了上述系统后一直在探素和研究:一个由微型机组成的小型OLAP系统应该采用什么样的结构和原理,才能在有限的硬件投资情况下使系统的综合性能达到最佳。

2 系统组成与原理

    2.1 综合性能

    系统的综合性能是指占用的储存空间、处理时间、查询速度、可靠性和在线数据更新能力。对这些系统性能的总体优化目标是:减少储存空间、缩短数据处理时间和提高实时查询的执行速度;满足可靠性,即当系统中任意一个单元出现故障时,系统仍然可以在允许的性能范围内继续保待正常运行;具有在线数据更新能力,指的是系统在数据更新期间仍能向用户提供正常的查询服务。

    为了优化数据的物理存取提高系统的查询性能,给OLAP系统的立方体选择一个适当的分区方式是很重要的:多维型OLAP(MOLAP)分区是所有数据都以专用的、私有的文件结构存储起来的,这种方式包括了事实表中最低一级的叶子层单元数据和所有预先计算的聚合优点是查询速度快,缺点是要求很大的附加存储空间;关系型OLAP(HOLAP)分区则是将所有数据都存在RDBMS表中,除了此事实表外,OLAP Services还针对聚合的级别组合建立并应用了聚合表,这种级别聚合是聚合设计中指定的,优点是分区可在多机上分配存储和查询,缺点是查询速度慢并且需要很长的处理时间;混合型OLAP(HOLAP)分区中的事实表和ROLAP分区中的相同一样,而预先计算的聚合则是按MOLAP的专用存储方式进行存储的,HOLAP分区方式结合了上连两个分区的某些特性。当对叶子数据聚合进行查询请求时访问速度等同于ROLAP,当访问存有的聚合时,其访问速度等同于MOLAP,它要求较小的附加存储空间、花费较少的处理时间和对存有的聚合查询速度较快,缺点是请求叶子数据聚合的查询速度很慢。由此可见这三种分区方式各有利弊,在存储空间、处理时间和查询速度之间存在着很大矛盾,极大地限制系统性能的优化程度,另外,要使系统在某个机器发生问题后或在数据更新期间也能提供正常的查询服务和保障不间断运行,至少还需要一套热备用系统。

    为了解决上述问题,本文提出了采用徽型机具有三个服务器的小型OLAP系统(简称三服务器系统),采用此复合结构并行处理的系统可达到最小的存储空间、最短的处理时间和最快查询速度.除了有效地解决了工程中需大盈地请求叶子数据聚合的查询速度慢的问题外,同时还满足了系统可靠性和不间断运行数据更新的要求。

    2.2 系统组成

    如图1所示,三服务器系统是基于微型机的三个结构相同的OLAP服务器(主服务器和从服务器)、多个数据输入端、数据查询端以及数据输入/查询混合端(客户机)组成。企业服务器也可作为一个OLAP服务器,它们采用TCP/IP协议通过局城网(LAN)相连接,另外还可设置附加网络来增强服务器间的通讯性能及可靠性,服务器采用SQL Server 2000中集成的Analysis Services。

图1 系统组成
图1 系统组成


    2.3 工作原理

    三服务器系统的基本工作原理是利用了HOLAP分区方式要求最小的附加存储空间、花费最少的处理时间以及对存有的聚合查询速度快的优点,和通过将对请求叶子数据聚合查询的任务分配给三个服务器进行并行处理的方法,从而解决了HOLAP分区方式请求叶子级数据聚合的查询速度慢的缺点。在获得了查询速度余量的基础上,就允许适当地降低性能目标减少创建的聚合数最,来进一步减少占用的存储空间和缩短处理时间。

图2 系统结构
图2 系统结构


    如图2所示,各服务器具有相同的管理和应用软件,它们的立方体结构、分区方式以及数据也是完全相同的。企业的各个部门通过细节数据管理程序将其负责的数据通过网络输入到企业服务器的细节数据库内,数据整理转换程序将细节数据按主题进行整理归纳后输入到各个服务器的综合数据库中。OLAP数据管理程序根据综合数据库中的数据种类,在各自的服务器中建立立方体,综合数据库里存放每个对象的基本数据,用来提供对叶子数据的访问。用户在查询端使用数据查询程序对OLAP数据进行查询,而对象的附加信息则直接在企业细节数据库读取,这种分级的数据存储机制可大大地减少OLAP查询所产生的数据童,提高了查询的速度。

    首先将全部的对象按其所在行政区分为三个固定的组,将用户选定的对象按其所在的组静态地分配给三个服务器进行处理。在从服务器处理完给定的查询任务之后,将中间计算结果通过服务器网络(LAN)发送给主机,主机的相应管理程序对三个服务器计算出的中间结果进行处理之后,将最终结果发送给查询端。

21/212>


 

评分:0

我来说两句