充值信息

赞助信息

Mondrian入门介绍之schema manager

字体: 小中大 | 打印发布: 2008-9-10 09:36 作者: 佚名来源: 网络转载查看: 15次

1 olap基本概念

　　联机分析处理(On Line Analytical Proccessing，简称OLAP)概念最早由关系数据库之父E.F.Codd于1993年提出。OLAP应用是目前数据仓库上的重要应用之一，是决策分析的关键。作为数据仓库最重要的多维分析工具，OLAP利用存储在数据仓库中的数据完成各种分析操作，并以直观易懂的形式将分析结果返回给决策人员。它的目标是满足决策支持或多维环境特定的查询和报表需求，技术核心是多维分析。OLAP具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点，从而使用户对大量复杂数据的分析变得轻松而高效，以利于迅速做出正确的判断，辅助决策。

　　相比于传统的OLTP(联机事务处理)，OLAP定义了多维模型的概念辅助分析操作：

图 1

　　如图1所示，这是由三个维度构成的一个OLAP立方体，立方体中包含了满足条件的cell(子立方)值，这些cell里面包含了要分析的数据，称之为度量值。显而易见，一组三维坐标就唯一确定了一个子立方。下面介绍一下多位模型的基本概念：

　　立方体：由维度构建出来的多维空间，包含了所有要分析的基础数据，所有的聚合数据操作都在立方体上进行。

　　维度：就是观察数据的一种角度。在这个例子中，路线，源，时间都是维度，

　　这三个维度构成了一个立方体空间。维度可以理解为立方体的一个轴。要注意的是有一个特殊的维度，即度量值维度。

　　维度成员：构成维度的基本单位。对于时间维，它的成员分别是：第一季度、第二季度、第三季度、第四季度。

　　层次：维度的层次结构，要注意的是存在两种层次：自然层次和用户自定义层次。对于时间维而言，(年、月、日)是它的一个层次，(年、季度、月)是它的另一个层次，一个维可以有多个层次，层次可以理解为单位数据聚合的一种路径。

　　级别：级别组成层次。对于时间维的一个层次(年、月、日)而言，年是一个级别，月是一个级别，日是一个级别，显然这些级别是有父子关系的。

　　度量值：要分析展示的数据，即指标。如图1中一个cell中包含了两个度量值：装箱数和截至时间，可以对其进行多维分析。

　　事实表：存放度量值的表，同时存放了维表的外键。所有的分析用的数据最终都是来自与事实表。

　　维表：一个维度对应一个或者多个维表。一个维度对应一个维表时数据的组织方式就是采用的星型模式，对应多个维表时就是采用雪花模式。雪花模式是对星型模式的规范化。简言之，维表是对维度的描述。

　　除此之外，OLAP还定义了多维模型的查询语言MDX(MDX是微软发布的多维查询语言标准),它的语法与SQL有很多相似之处：

select {[Measures].[Salary]} on columns,
　　[Employee].[employeeId].members on rows from CubeTest

　　对于这条语句，COLUMNS 和 ROWS都代表查询轴，其中COLS代表列轴，ROWS代表行轴。COLUMNS又可以写成0，ROWS又可以写成1，当只有两个查询轴时，可以理解为结果的展现格式是一个平坦二维表。这条语句的含义就是查询名字为CubeTest的立方体，列显示Measures维度的salary，行显示 Employee维度employeeId级别的所有成员，那么得出的结果就是employeeId所有成员的salary，也就是所有员工的薪酬。由 jpivot(jpivot会在后面介绍)展现的结果如图2所示：

图2

　　2 开源OLAP引擎-Mondrian

　　OLAP引擎实现了除多维数据展示外的所有数据分析功能：包括建立多维模型、解析MDX语句、返回分析结果。国外传统数据库厂商都推出了自己的 OLAP分析工具，微软发行了MDX语言标准，SQL SERVER Analysis Service是其商业化OLAP引擎。

　　开源社区OLAP产品主要是Mondrian OLAP引擎。Mondrian是开源项目Pentaho的一部分，是一个用Java写成的OLAP引擎。它实现了MDX语言、XML解析、JOLAP规范。它从SQL和其它数据源读取数据并把数据聚集在内存缓存中，然后经过Java API用多维的方式对结果进行展示，同时可以不写SQL就能分析存储于SQL 数据库的庞大数据集，可以封装JDBC数据源并把数据以多维的方式展现出来。JPivot是Mondrian默认的表现层工具，它是一个JSP 自定制的标签库，可以绘制OLAP分析图表。用户可以执行典型的OLAP导航，如下钻、切片。JPivot使用Mondrian作为它的OLAP服务器但也支持XML/A数据源访问。它使用WCF (Web Component Framework)框架，基于XML/XSLT来渲染Web UI组件。

　　Mondrian支持的数据库或数据仓库主要有：LucidDb、Oracle、 Access、Mysql、Sybase、Ingres、Postgres、Hypersonic、Teredata、

　　Mondrian主要特点是对立方体进行了缓存，众所周知，缓存庞大的立方体对性能有很大的影响，但是Mondrian利用java语言的特点对这一点进行了很好的控制。其次由于Mondrian基于java语言，所以它能运行在不同的平台之上，这也是其流行的主要原因之一，例如花旗银行就在其数据仓库项目中用Mondrian作为它的OLAP引擎。Mondrian是开源项目，为开发人员和数据分析人员提供了深入研究OLAP技术的机会，同时这也为优化Mondrian总体性能提供了可能。

　　3 Mondrian体系结构浅析

　　3.1 Mondrian 总体结构

　　Mondrian体系结构如图3所示：

图 3

　　整体的架构图将Mondrian分成了四个大部分Schema manager、Session Manager、Dimension Manager、Aggregate Manager，而实际上各个部分有着更为紧密的联系。对于Dimensional Layer、Star Layer和SQL Layer的划分，更多是处于总体逻辑分层的考虑，具体在源码中，逻辑分层的概念比较模糊。

　　下面简单介绍下各个Manager的大致功能，在后续文章会分开详细介绍：

　　1 Session Manager：最为重要的一个部分。接受MDX查询、解析MDX，返回结果。

　　2 Schema Manager：与初始化紧密相关。主要是一些重要的数据结构如缓存池的构建以及多维模型的生成。

　　3 Aggregate Manager：实现了对聚集表的管理。主要是对OLAP缓存的管理，属于性能优化的部分。

　　4 Dimension Manager：维度的管理。实现多维模型中维度和关系数据库表中列的映射，在Schema Manager也有部分功能处理这些映射。

　　3.2 Mondrian Schema Manager分析

　　3.2.1 准备工作

　　Mondrian的结果展示分为两种形式：一是利用jpivot展现层在web页面上展示，一种是调用Mondrian api在控制台显示。在分析Mondrian的过程中，后一种方式有利于对结果封装格式的研究以及程序的调试。所以采取后一种方式来对Mondrian进行分析。分析之前要做一些必要的准备工作。

　　分析环境为：

　　(1)Window2003

　　(2)Tomcat5.0

　　(3)mysql5.0.37

　　(4)java 1.6.0

　　(5)Mondrian3.0.3.11016

　　1 正确配置Mondrian源码

　　(1)在eclipse中构建一个空的java工程(Mondrian3.0工程);

　　(2)将Mondrian3.0.3的源码压缩包解压，将其内容全部拷贝到Mondrian3.0工程中;

　　(3)在工程属性中指定源代码目录为src/main;

　　(4)ant运行build.xml文件的prepare,parser,generate.resources,def四个目标过程，按顺序运行;

　　(5)将mondrian.war发布包中的WEB-INF/lib中的jar包全部拷贝到Mondrian3.0.工程的lib目录中;

　　(6)根据提示的异常导入必要的jar包文件;

　　在这个过程中需要注意的是：最后执行ant完成对工程进行清理处理;如果一切正常，之后则不需要用mondrian.jar文件，可以依此为标准检测是否构建成功。

　　2 数据库建表

　　在数据库中建立如下三张表：

create table tb_employee(employee_id int,
　　employee_name int
　　)
　　create table tb_time(time_id int,
　　time_year int,
　　time_month int)
　　create table tb_salary(employee_id int,
　　time_id int，
　　salary int)

　　插入适当的数据。

　　3 编写Schema文件test.xml

　　在利用Mondrian进行多维分析过程中需要十分注意Schema文件的编写。Schema文件是对数据库中表的多维模型定义，所以有些选项要和数据库中表的定义保持一致，更为重要的是Schema文件的设计的好坏直接影响到多维查询的效率，Mondrian在schema文件定义的过程中提供了很多配置选项，可以对多维查询进行优化。下面是基于数据库表的一个test.xml:

　　在test.xml中定义了一个名为CubeTest的立方体，这个立方体对应的事实表是tb_salary，定义了两个维度Employee 和Time，这两个维度分别有一个层次，对应的维度表分别是tb_employee和tb_time，employeeid层次有一个级别，而time层次有两个级别。在事实表中用employeeid和timeid连接到这两个维表，该星型模式如图4所示：

图4

　　4 编写测试类

　　可以构建一个简单的查询与结果输出：

图五

　　控制台输出的结果应为：

　　5 测试类的流程

　　从测试类可以看出Mondrian的api的确与Jdbc有很多相似之处，从构建查询到输出结果主要完成四个步骤：

　　(1) 初始化Connection，初始化时传入必要的参数。getConnection(str)中的str就是连接字符串，指定了数据库参数和jdbc驱动。

　　(2) 生成一个String对象，用来保存MDX查询语句。

　　(3) 生成一个Query对象，用来查询结果。

　　(4) 生成一个Result对象，用来保存结果。

　　其中Connection，Query，Result对象均是Mondrian自定义类型。

　　3.2.2 Schema Manager

　　1Connection初始化与Rolapschema

　　测试类的第一个步骤初始化了Connection对象，Connection对象提供了Mondrian的入口，Connection对象有一个十分重要的成员变量schema，Connection初始化的大部分工作其实是在完成schema的初始化。在整体架构中，Connection初始化属于Session Manager的范畴，而Schema的初始化由Schema Manager专门完成。Connection对象中含有Schema对象，这也是Session Manager和Schema

　　Manager存在紧密联系的原因。图5是初始化一个connection的时序图：

　图6

　　Connection在Mondrian中定义为接口类型，RolapConnection实现了Connection接口，完成了实际初始化的过程。图6展示了类RolapConnection的部分方法和全部属性：

图7

　　RolapConnection其中的一些属性与schema有很大的关联。datasource指定了连接数据源，如果在连接字符串里定义了 jdbc参数，该属性可以为空。catalogUrl是test.xml的路径，schema的初始化是围绕xml文件展开的。schemaReader 为其他对象提供了获取schema内部信息的渠道。

　　RolapConnection的初始化最终会调用第二个构造方法。如果其schema参数为空，那么会调用 RolapSchema.Pool.instance.get()方法，从这里开始，系统流程从Session Manager部分转到Schema Manger部分。Pool是RoalpSchema的内部类，Pool类利用Singleton模式维护了一个schema池，这样对于不同的 connection，如果它们所用的xml文件是一样的，那么只用生成一个schema实例就可以满足需要，当xml文件很大时，shema池可以提高初始化效率。

　　Mondrian提供了两种方式从schema池中取schema对象，一种是基于关键字的，一种是基于内容检查的。关键字key主要包含是 xml文件路径、文件名和数据库连接参数，当采用这种方式时，schema池便是key与schema对象的映射，用key来访问schema对象。这一映射用java语言中的软引用技术实现和垃圾收集器之间的交互，最大限度上的利用内存同时又不影响垃圾收集过程。但是存在一个问题，那就是不同的key对应的xml文件的内容可能是一样的：可能同一个xml文件放在不同的路径下，也可能是xml文件名字不同但内容是一样的，在这种情况下，不同的key对应相同的schema对象，出现了对象冗余。基于内容检查的获取方式可以解决这一问题，它的实现思想是，用两个key来对应一个schema对象，一个 key与上述的key完全一样，另一个key是对xml内容用md5加密后的字符串，取schema对象时，先将xml内容用md5加密，用得到字符串和映射中的所有key比较，如果字符串与映射中的某个key相同，说明对于该xml文件内容，映射中存在相应的schema对象，直接取就可以了，如果映射中没有一个key满足要求，说明该xml内容是第一次初始化，那么初始化对应的schema对象，并添加两个映射：key与schema对象的映射和 md5字符串与schema对象的映射。在这里key与schema对象的映射并不是多余的，因为md5字符串可能为空。

　　两种访问schema池的方法各有优劣，在实际应用中很难估计所使用的xml文件内容有多少是完全相同的。如果xml内容各不相同，第二种方式的效率反而会很低，不仅浪费了时间，而且还浪费了空间。基于内容检查方式Mondrian默认设置是关闭的，可以根据实际应用情况进行配置。

　　2 schema对象的初始化

　　schema对象的初始化是SchemaManager的主要功能。显然，当初始化第一个连接访问schema池的时候，schema池是空的，这个时候就涉及到schema对象的初始化，即对于一个xml文件，建立与之对应的schema对象，并把该schema对象放到schema池里面去。图7是shema对象初始化的时序图，较之connection初始化的时序图，更为详细了描述了schema部分的初始化过程：

图8

　　RoalpSchema的类图如图8所示：

图9

　　类图中列出了一个schema对象的主要属性和主要的初始化方法。结合时序图和类图，可以分析出schema初始化的大致流程：

　　(1) RolapSchema的六参构造方法调用RolapSchema的四参构造方法，在Rolap四参构造方法中，初始化了 internalConnection，主要是设置了internalConnection的datasource属性，如前面所述，datasource传递进来时可以为空，在初始化internalConnection时，如果传递进来的datasource为空，会根据传递进来的jdbc参数构造一个datasource，这个datasource至关重要，在生成数据库方言的时候要用到。此外，构造方法还初始化了几个重要的映射：如立方体名到立方体的映射、共享层次到阅读器的映射、共享层次名到层次的映射，当然此时的映射都为空。最后构造方法初始化了一个 aggTableManager对象，用来管理聚集表。

　　(2) RoalpSchema六参构造方法调用RolapSchema的成员函数Load(String，String)。 Load(String，String)函数的主要作用是解析xml文件，以及将多维模型转换为MondrianDef定义的对象。 Load(String，String)函数使用了EigenBase包，EigenBase是一个开源的数据管理系统，函数里面用EigenBase提供的xml解析器来解析xml文件。同时函数中利用apache提供的common包建立了虚拟文件系统，正是这个虚拟文件系统实现了不同的xml文件读取方式：比如从本地文件中读取或者从http协议读取。EigenBase为xml的解析提供了一套api，解析的方式是嵌套进行的。Mondrian中与EigenBase xml parser交互的类是MondrianDef，这个类用内部类的方式定义了所有的多维概念，解析过程中，xml节点转化为多维对象并建立彼此之间的联系。这些对象都被包含在xmlSchema对象之中。需要注意的是，MondrianDef定义的多维概念只能算做一种中间过渡的临时类型，因为此时只建立了立方体、维度、层次、级别、事实之间最基本的关系，没有考虑到数据的共享，函数的调用。

　　(3) 在Load(String,String)方法中调用Load(MondrianDef.Schema)方法。Load(MondrianDef)方法主要做了两件事情：函数表对象的初始化，根据MondrianDef的多维对象生成最终的多维对象。在Load(MondrianDef.Schema)方法中初始化了RolapSchemaFunctionTable对象，RolapSchemaFunctionTable是RolapSchema的内部类，主要用来接收用户自定义函数的定义，这个自定义函数的定义来自与xml文件。调用RolapSchemaFunctionTable对象的 intialize()函数时，初始化所有函数的定义，同时定义所有函数的保留字。这里的所有函数包括BuildinFunTable、 GlobalFunTable、RolapSchemaRolapFunctionTable。

　　Mondrian中各种函数类的关系如图10所示：

图10

　　生成函数表对象之后，再由xmlSchema对象包含的多维对象生成Mondrian最终使用的多维对象。这一过程通过初始化xml文件中定义的多维模型可能用到的参数，命名集，RolapCube类型的立方体和虚拟立方体来完成。

　　RolapSchema对象维护了一个RolapStar(星型模式定义)池，当初始化一个立方体时，访问这个RolapStar池，参数是这个立方体对应的事实表名。

　　如果存在对应的RolapStar对象，那么直接设置立方体的star域，如果不存在，则生成一个新RolapStar对象再设置。当生成新的 RolapStar对象时，就会调用RoalpSchema对象的interConnection成员的datasource,根据这个 datasource去返回所连接的数据库的特征参数，为之后生成特定的sql语句做准备。

　　在这里可以对RolapConnection、RolapSchema、RolapCube、RolapStar之间的关系做个小结：多个 connection可能对应一个schema，每个schema又有一个internalConnection，并且可能有多个cube，多个cube 可能对应一个star。Mondrian构造了很多对象池，这种做法提高了对内存有限空间的利用率。

　　(4) 最后Load(String,String)方法调用aggTableManager.intialze()。聚集表管理器的初始化和星型模型有很大关系，同时它利用触发器机制对Mondrian.properties文件进行监听，Mondrian.properties中property值的改变能及时反映到聚集表管理器中，从而影响到聚集的动作。

　　至此，一个schema的初始化过程全部完成，流程从Schema Manager重新转向Session Manager，Session Manager下一步将解析传入的MDX语句。从以上的分析可见，Session Manager是十分重要的一环，它与后面的Aggregate Manager、Dimensional Manager联系也十分紧密。初始化的工作为之后的多维分析操作奠定了牢固的基础。在Schema Manager部分，可以优化的地方不是很多，唯一可以能提高效率的地方便是xml文件的编写，设计高效的多维模式、灵活的运用Mondrian提供的配置参数有助于提高之后数据处理操作的效率。

-5 -3 -1 - +1 +3 +5

评分：0

BiThink

最新更新

充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

Mondrian入门介绍之schema manager

我来说两句

BiThink

最新更新

充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

Mondrian入门介绍之schema manager

我来说两句

推荐给好友上一篇 | 下一篇