充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

实时数据仓库技术的研究



1 引言

    数据仓库经过多年的发展,其技术日趋成熟,在当今信息社会中发挥着重要作用。但在应用中也暴露出一些问题,主要体现在两方面:一:数据的更新问题。首先是缺乏实时性。随着市场竞争的加剧,信息的实时性越来越重要。人们希望没有延迟地获取信息,并据此做出分析和决策。而传统的数据仓库中大多是历史数据,数据抽取周期一般为一天甚至一周。基于传统的数据仓库很难进行实时性处理;其次是数据更新的主动性问题。传统的数据仓库采用周期性的进行批量更新,更新的时间和数据都是既定好的,不管周期是否合适以及数据有无变化。效率低下,缺乏主动性、选择性的更新策略。二:数据仓库的使用范围和应用领域狭窄。传统数据仓库主要为制定企业中长期发展的战略性决策提供支持,服务对象是企业的高层管理者或分析员。而激烈的商业竞争要求数据仓库在提供战略性决策支持的同时,更多的给企业提供关于日常运行的战术性决策支持。而且要扩展数据仓库的使用范围,使中层管理者、操作雇员、甚至合作伙伴和客户都可以访问它,让资源得到充分利用。针对传统数据仓库的以上不足,现在开始提出了实时数据仓库的有关理论和技术。

2 实时数据仓库的有关概念和特点

    实时数据仓库(ReaI—time DW)是数据仓库技术的一个新的发展方向。其理论还未成熟,也没有公认的严格定义。本质上实时数据仓库仍然是数据仓库,它的最大特征是实时性,主要体现在数据仓库中数据的实时性变化上。我们可以这样理解:实时数据仓库是这样一个系统:只要OLTP系统中的事件(如超市中商品的销售行为)完成产生了数据,这些数据就可以立即被实时数据仓库捕获,并变得可用。与传统数据仓库的“快照”形式不同,实时数据仓库中的数据能够同步的反映业务系统(OLTP)中数据的变化,从而及时做出相关分析和决策。显然这非常有利于企业抓住瞬息万变的市场变化,在竞争中处于有利地位。

    除了实时数据仓库这一概念外,目前还有一些近似的概念,如动态数据仓库(Dynamic DW)、主动数据仓库(Ad-ve DW)等。主动数据仓库主要强调了新一代数据仓库中数据更新和决策支持方面的主动性;动态数据仓库则强调数据仓库中数据是动态变化的,与业务数据的变化同步。以上概念都是对新一代数据仓库技术的不同描述,在本质上是近似的。

3 实时数据仓库的实现技术研究

    要实现实时数据仓库,关键技术在于实现数据的实时更新。按照对反应时间的要求,所谓的实时可以分为真正实时和近似实时两种。这里所说的反应时间是指业务系统中事件的完成时间和该事件的数据在数据仓库中可利用时间之间的延迟。真正实时情况下,反应时间以秒甚至毫秒为单位,可以忽略不计;在近似实时情况下,反应时间是一段时间,以分钟为单位。根据数据实时性要求的不同,可采用不同的更新策略。

    (1)以传统的为基础,只是把周期尽量缩短。这并非真正的实时更新技术,只是模拟了实时效果。准实时层借助于ODS实现。业务系统中产生的准实时数据首先采用某种更新策略(如策略4中的事件驱动机制)进入ODS。然后再视具体的实时性要求,以一定的周期从ODS导入准实时层。这一过程可以采用策略2实现,即利用ETL进行增量更新;实时层采用策略5进行更新。由业务系统上的应用程序在产生数据的同时就完成数据的转换和载入,以保证实时性。

    这种实现方法对不同实时性要求的数据采用不同的更新策略,数据仓库的三层结构既能够最大限度的满足不同数据的实时性要求,又不会过分增加DW更新的负担、影响系统的性能ODS的引入简化了到DW的数据传输接口,减轻了数据仓库导入数据的负担。另外所有的查询分析和决策都是建立在数据仓库上,这样就有效的解决了基于ODS进行查询分析的数据不一致性问题。在电力营销决策支持系统一泰安项目的开发中,应用这种设计方法取得了良好的效果。据仓库的建模以及基于实时数据仓库的决策支持等方面还没有深入研究,这也是我们下一步的工作方向。




 

评分:0

我来说两句