充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

统计数据仓库体系中数据分析系统及其研究



0 引 言

    统计部门是政府一个重要职能部门,负责为政府提供宏观决策的数据依据,鉴于统计数据量庞大、来源众多、口径不一,现有的联机事务处理环境无法较好地同时决策支持信息等问题,目前统计系统转向采用数据仓库技术实现决策支持的功能,数据仓库是面向主题的、集成的、非易失的、随时间积累的、适合用于为管理者决策过程提供支持的数据集合。

    “万峰统计数据仓库”正是根据统计部门的要求为实现从统计数据中提取决策支持信息而建立的一套统计数据仓库体系结构,它基于统计行业大量的宏观经济数据,能够为政府宏观决策提供支持和分析预测,依据仓库存储的大量国民经济数据,可供专家和决策者分析宏观经济现状,预测经济发展趋势,以联机分析处理(online analytical processing,OLAP)等多种形式展示。

    “万峰统计数据仓库”从功能上可以大致分为数据准备和处理、数据查询和展示及数据和预测3个阶段,如图1所示。

图1 统计数据仓库及阶段分类
图1 统计数据仓库及阶段分类


    (1)数据准备和处理:包括源数据的准备,数据的清洗、转换、装载,经过处理的数据在仓库中围绕主题以星型模式存放,其数据也由一般业务数据的关系型表,转换为说明主题的事实表和相关维表,这些裘存放在数据仓库中,另外有相应的元数据库控制它们的结构,负责数据的维护等工作。

    (2)数据查询和展示:仓库数据经过不同厂家提供的联机分析服务器的处理,经过主题、维度、层次、计算、数据映照等各相关流程的处理,形成了一个多维的数据立方体,可以被联机分析前端展示工具所查询和展示。

    (3)数据分析和预测:经过联机分析处理的数据,仅仅实现了数据的多维和层次视图,有部分数据可以根据维度层次实现加总或拆分,甚至一些简单的处理,完全无法满足统计系统的数据分析要求,由此,数据分析实际是最重要和有实际意义的工作。

1 数据分析的3类工具比较

    数据分析为决策支持提供直接分析工具,也可以定义为数据仓库系统的工具层。OLAP的查询分析型工具、DSS的分析预测型工具、数据挖掘的挖掘型工具一起构成了数据仓库系统的工具层。

    这3类软件各自的侧重点不同,适用范围和针对的用户也不相同,具备了这3种工具的数据仓库系统,才能真正高效地利用数据仓库中蕴藏的大量宝贵的信息。

    1.1 联机分析处理(OLAP)

    主要通过多维的方式来对数据进行分析、查询和报表,它不同于传统的联机事物处理(online transaction processing,OLTP)应用。OLTP应用主要是完成用户的事务处理,如银行储蓄系统等,通常要进行大量的更新操作,同时对响应时间要求比较高。而OLAP应用主要是对用户当前及历史数据进行分析,辅助领导决策,其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作,对时间的要求不太严格。

    目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP。在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。

    1.2 决策支持系统(DSS)

    DSS和数据仓库的目标用户相同,都是面向企业的中高层领导,它们执行的都是决策和趋势分析类的应用,DSS中的一些技术可以很好地集成到数据仓库中,并使数据仓库的分析能力更加强大。例如:DSS中的传统统计分析模型可以帮助用户对数据仓库中的数据进行更加有效、深入的分析,从而更好地掌握和利用信息,而一些智能决策技术,如人工神经网络在发现顾客行为模式、预测金融市场行为等方面显示了强大的功能。这些DSS的核心技术在数据仓库中的应用不但会大大提高数据仓库的决策支持能力,同时也使DSS的应用范围更加广泛。

    1.3 数据挖掘

    数据挖掘是当前业界的热门技术,已经在多个应用领域产生了巨大的效益。数据挖掘不一定要建立在数据仓库的基础上,但是如果将数据挖掘和数据仓库协同工作,则可以简化数据挖掘过程的某些步骤,从而大大提高数据挖掘的工作效率。并且因为数据仓库的数据来源于整个企业,保证了数据挖掘中数据来源的广泛性和完整性。数据挖掘技术是数据仓库应用中比较重要也是相对独立的部分。目前,数据挖掘技术正处在发展当中,数据挖掘涉及到数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度较大,此外,数据挖掘技术还会同可视化技术、地理信息系统、统计分析系统相结合,丰富数据挖掘技术及工具的功能与性能。

2 统计数据分析系统

    “万峰统计数据仓库”系统中开发了符合统计需求的数据分析工具,充分满足了统计数据仓库的决策支持需要,下面介绍数据分析系统的3个工具。

    2.1 联机分析工具

    “万峰统计数据仓库”自行开发的OLAP GUI是基于众多数据仓库厂商的OLAP Server之上,利用他们提供的API,独立完成的数据分析工具,除主要通过“多维的方式”来对数据仓库里的数据进行分析、查询和报表外,还在上面开发了许多特殊的控键,每个控键实现了一种专业的统计分析功能,使得OLAP的结果可以直接被用于具体的分析中。

    联机分析处理是对处在数据仓库中的多维数据集中分析的决策支持领域,建立联机分析处理模型的目的是跨越销售商和应用程序对元数据进行共享。良好的Desktop OLAP工具将直接关系到一个数据仓库系统的成败。

    利用数据仓库多维数据模型的优势,首先登录数据库,从交互式的数据仓库中获得信息;再以不同角度对当前和历史数据进行观察和分析,分为关系型查询、OLAP查询、旋转透视表、图表、报表5个区。采用交互图形分析方式观察和分析数据间的关系,可直接利用图或表进行任意切片、向上、向下钻取等操作,按照各种层次关系、隶属关系、相关关系进行分层次展示数据。配有丰富的图形图示,可以显示折线图、面积图,点图、柱状图、饼图、素描线图、箭头等图形。用户可采用“拖放”方式完成查询条件的设定,设置要查询的字段,也可多表之间接一定的连接条件连接查询,查询结果可保存,供下次需要时使用。

21/212>


 

评分:0

我来说两句