充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

多维联机分析中业务空间的设计



1 统计实践中的3个问题

    在我国现行的实际统计工作中,普遍存在3个长期困扰人们的问题。

    (1)我国机关或企事业单位统计机构的职责之一是向领导或用户提供咨询和决策支持所需的信息。但是,对于用户或领导提出的各种预料不及的咨询或统计分析要求,却不知道如何才能快速、及时地提供资料。

    (2)我国现行统计资料的采集,基本上是自下而上、层层汇总、逐级报告的。因此,统计资料或信息的拥有量和管理层次的关系是金字塔形的:管理层次愈高,拥有资料愈少。很多重要的决策支持信息需要由高层次的统计机构提供,但他们在很多情况下缺少足够的有用信息。基层单位保存了大量信息,可以提炼出足够有用的统计资料,但是,这些原始资料在各基层单位可能以各种各样不规范的方式保存,很难汇总利用。

    (3)随着计算机应用的普及和信息化的推进,很多企事业管理部门积累了大量电子业务数据和电子文本资料。随着业务活动继续开展,企事业管理部门积累的资料愈来愈多。这些资料不仅是业务操作必须的,也是进一步进行统计、分析和决策所需要的原始数据,是企业和管理部门的宝贵信息资源。但是,这些数据目前主要用于填报统计报表。较好的单位,可能会利用数据库中的数据,按照预先设计的、有限的内容和形式,有目标地进行分析。人们想到这样一些问题,即这些海量数据还有没有更多的可用价值?其背后有没有隐藏着人们想不到的、对决策又很有价值的信息?我们怎样去发现那些有价值的信息?

    随着信息技术的发展,特别是上世纪90年代出现的“数据挖掘技术”,为回答和解决上述问题提供了可能和技术支持。“数据仓库”和网络技术已经能够对在线数据实现交互查询、数据清理和规范化等需求提供技术支持,从而使处于不同地理位置、存储方式不同的数据通过联机操作,变成规范的、可以利用的数据。

    上述第三个问题是数据挖掘技术研究的主题。由于我国在这方面的工作开展较晚,发展历时短,数据挖掘技术在企业和机关的应用还很不成熟,是目前推广和应用的热点问题之一。从技术层面上分析,上述第一个问题等价于第三个问题,它们是对同一个问题的两种不同提法,解决方法应该相同。

    OLAP技术,即联机分析处理,是解决上述3个问题最适用的技术。OLAP利用各种联机数据实现统计资料共享;除了具有汇总、合并和聚集等简单功能以外,还能使用各种适当的方法解决各种复杂的数据分析问题。OLAP尤其着重从不同角度观察问题和现象,即提供对一个问题分析的各种不同视图,从而向用户快速提供各种可能的信息咨询、在成千上万种统计分析结果中挖掘出新的有用的信息和知识。

2 MOLDA多维联机统计分析技术

    2.1 OLAP技术及其特征

    联机分析处理OLAP(On-Line Analytical Processing)技术是从原始数据(数据源)中分析和挖掘出有价值的信息数据处理技术。即对原始数据进行各种处理,向管理人员展示他们所能够理解的、反映企业或机关业务实际状况的各种视图,为进一步的分析提供“战略性”的信息。

    OLAP处理的数据源可以是任何联机数据,包括单一的或多个异种、异构的数据库,或其他“操作数据”。OLAP可以快速地对联机数据进行大量扫描、复杂查询和汇总,以统一的模式提供多维视图。

    OLAP可以应用在企业和管理部门的各个分析和决策领域。关键是当决策者对本部门战略方向进行重要决策时,OLAP要能够快速提供可能需要的各种各样的信息。一个OLAP应用成功的标志是它能提供所需要的战略信息,能为有效决策提供恰好所需的信息。这一要求远远超出了一般的“提供详细资料”这样一种基本要求。

    OLAP系统具有3个关键特征。一是数据的多维视图——提供管理和决策人员所分析问题的各种可能的视图。一般企业或机关的业务模型都是多维的,因此,多维视图是业务模型的本质表示。二是时间维的处理能力——能反映时间的序列特性,并进行专门的处理。时间维是所有数据处理和分析的依据或组成部分。例如,本月的业务与上月比,本月与上一年同一个月比等。OLAP技术在处理和分析数据的时候,必须遵循时间的序列本质。三是提供复杂计算的能力——可包含各种复杂的计算和自动识别建模能力。因此,OLAP技术能够满足各种业务问题分析对多种计算方法的需要:从简单的聚合,到代数方程的解,到各种统计分析模型,复杂关系的建模等,以便于进行更深层次的业务问题分析。

    2.2 多维联机数据分析模型MOLDA

    MOLDA(Multi-dimensional On-Line Data Analysis)多维联机数据分析模型是笔者根据多类企业和机关的业务管理、统计分析和咨询项目研究的实际需要,特别是解决我国现行统计实践中的问题而设计的一个OLAP系统模型。建立在MOLDA模型基础上的统计分析系统,称为MOLDA多维联机数据统计分析系统。

    2.2.1 特点

    用MOLDA模型设计和建立的分析系统,除了具有OLAP主要特性外,还加强了统计分析的功能。

    MOLDA建立在多维数据模型的基础上。通过从所分析的问题的“多维业务空间”中提取和构建“多维数据立方体”和“ 概念分层”,经过“切片”、“上卷”、“下钻”或“旋转”等操作,可以为用户提供各种“粒度”(粗细、层次、单一或组合)的统计分析结果,并用二维表格和图形表示出来。

    时间作为一个特殊的维,用“计算期”和“对比期”等形式出现,其序列特性得到考虑。

    可以在MOLDA的方法库中加入各种指标计算、统计分析方法和自动识别建模工具,从而对提供的各种粒度的多维数据或直接来自信息源的信息进行各种分析。

    MOLDA统计分析系统,可方便地扩充和修改。

    因此,MOLDA统计分析系统除了可以回答“谁?”、“是什么?”、“如果这样,将会如何?”以外,它还能回答“为什么?”之类的问题。例如可回答如下的问题:“如果明年GDP增加7.3%,交通投资增加8%,交通债务会有什么变化?高速公路建设投资对交通债务有什么影响?”等。

    2.2.2 结构

    基于MOLDA模型的联机分析系统分为“联机分析系统”和“联机分析定义库”两大部分。联机分析系统由分析子系统、数据连接子系统、直接数据源或数据仓库等几个主要部分组成。联机分析定义库包括“多维业务空间”的定义,“方法库”,“数据连接、抽取、转换定义”及“数据源的定义”等部分。如图1所示。

图1 联机分析定义库
图1 联机分析定义库


    当用户提出了各种多维分析要求后,分析子系统即从方法库及多维业务空间定义库中寻找与此多维分析要求相匹配的分析方法。同时它指令数据连接子系统寻找适当的数据源,并按分析的要求,连接数据源和分析方法,以获得必要的分析结果。

    MOLDA分析系统设计的关键是联机分析定义库的设计。其中多维业务空间是核心。多维数据立方体和概念分层与多维业务空间关系密切,其设计和应用是提高系统运行效率的关键技术之一。本文将重点介绍它们的概念与设计方法。其他部分的设计将另文介绍。

31/3123>


 

评分:0

我来说两句