充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

实时数据仓库体系架构的研究



    随着信息技术的不断发展,海量数据不断涌现,且数据还正以几何级数增长,企业迫切需要高效、精确、科学的分析数据。数据仓库、On-Line Analytical Processing(OLAP)Business Intelligence(BI)Data Mining(DM)等技术不断发展,给企业分析数据,作出科学决策提供了支持。传统数据仓库系统中,通过对历史数据的聚合及分析,可以为企业提供如明年将采用何种营销策略等战略型决策支持。而客户需求的不断发展,也对上述技术提出了挑战,实时数据仓库这一在传统数据仓库上发展起来的新数据仓库体系架构也得到了广泛认可。所谓实时即数据实时从On-Line Transaction Processing(OLTP)系统中载入数据仓库,用户还可以实时获取客户信息,从而支持如查询当前客户信息,给客户灵活的定价和折扣等战术性决策。本文将对传统数据仓库体系架构及实时数据仓库体系架构进行比较,对需求、技术、性能等方面进行研究,对实时数据仓库体系结构提出了一些自己的观点。

1 传统数据仓库体系架构

    传统数据仓库由Operational Data Store(ODS)、数据仓库、数据集市和BI工具组成。操作型数据从OLTP系统中在晚间的批处理中载入ODS。然后将ODS中的数据经过晚间的批处理通过分段传输和集中处理存入数据仓库。数据仓库将数据提供给由部门或分析小组区分的数据集市。BI工具在数据仓库或数据集市的基础上提供OLAP分析或报表及数据挖掘处理。图1显示了传统数据仓库的通用结构。

图1 传统数据仓库结构
图1 传统数据仓库结构


2 一种实时数据仓库体系架构

    现在一些实时数据仓库架构则提倡操作型数据在事件产生时即由OLTP系统直接载入到数据仓库,而不是像传统数据仓库那样在晚间的批处理任务中将操作型数据由OLTP载入到ODS。这样就保证了数据仓库的实时更新而且可以省去ODS这一中间区域。

    一些人甚至建议不需要数据集市而直接在数据仓库上完成分析查询。这也就是说实时数据仓库摒弃了前面的分布在不同系统上的ODS、数据仓库和数据集市体系,而将它们合并到一个大的数据仓库中,所有满足不同部门和分析小组需要的战术查询和战略查询都直接在实时数据仓库上完成。现有的EAI工具提供了将实时数据从OLTP系统中抽取到数据仓库的可能。而大型基于MPP的硬件和数据库厂商也声称他们能在不影响OLTP系统的性能和可维护性的基础上将数据实时地从OLTP系统抽取到数据仓库中去。从图2看,这一切看上去都非常令人激动,但同时我们也要认识到其中所固有和潜在的一些技术难关和风险。这一点将在后面篇幅加以详细分析。

图2 一种实时数据仓库结构
图2 一种实时数据仓库结构


3 传统数据仓库和上述实时数据仓库的比较分析

    通过对传统数据仓库和上述实时数据仓库的比较和分析,我们可以了解一些它们体系结构背后的需求及实现,同时对其优劣进行一些客观的评价。表1显示了传统数据仓库与实时数据仓库的比较。


表1 传统数据仓库与上述实时狱据仓库的比较
表1 传统数据仓库与上述实时狱据仓库的比较


    从需求而言,上述实时数据仓库扩展了传统数据仓库的适用范围,能给企业提供关于日常战术操作的技术支持。外部人员如合作伙伴、供应商和客户等可以访问它,操作雇员和客户代表等也可以访问它。这样实时数据仓库能帮助企业更接近客户,优化供应链,确保制造质量,精确跟踪商品流动,计划和管理商业活动,实现销售自动化,从而完成新经济环境下的各种紧急的商业分析。这也是实时数据仓库体系最引人注目的优势。

    从实现上看,传统数据仓库用ETL作为数据载入和更新的手段,采用ETL工具(如Informatica、Datastage等)或开发自己的数据库脚本,考虑到不影响OLTP系统的性能,一般在晚间进行数据载入的批处理操作。而上述实时数据仓库一般采用EAI等技术,在事务完成后即触发,对数据仓库进行载入或更新。二者的存储结构也不相同,传统数据先通过ODS将OLTP数据转储,然后载入数据仓库,最后分发到满足不同需要的数据集市,各个部分有不同的功能分工。而上述实时数据仓库则将它们整合到一个大的数据仓库中,数据载入、更新和查询都基于它,这会带来很多问题。


21/212>


 

评分:0

我来说两句