充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

基于多维模型的独立型数据集市数据转换技术研究



    独立型数据集市的数据源为当前OLTP(on line transaction processing,联机事务处理)数据库或其它异构数据源,经过ETL(extraction-transformation-loader)程序将数据等抽取到临时中间层后进行清洗、转换、集成、最后加载到数据集市中,成为诸如OLAP(on line analytical processing,联机分析处理)、DM(data mining,数据挖掘)及可视化报表等决策支持应用的基础。由于独立型数据集市采用的数据模型往往与源数据系统的不同,因此数据组合、数据质量处理、更新数据的标识及代理关键字管理等工作都必须在数据转换步骤中完成。

1 数据转换模型

    数据转换主要针对数据集市建立的模型,通过一系列的转换操作实现将数据从业务模型到分析模型的流动。

    在ETL的过程中,数据转换承担着将抽取的数据按照数据集市的逻辑模型进行数据清洗、数据的重新构造及数据计算的任务,根据数据转换的类型及过程,数据转换可抽象如图1所示的转换模型。


图1 数据转换模型


    该模型中,数据抽取模块将数据从OLTP环境中抽取出来,数据流经由数据转换模块的集成、转换、字段分离/合并、汇总、清洗等转换活动将其转换成数据集市所需的数据格式,与此同时,利用代理关键字创建、渐变维度维护等不同类型的辅助工具对数据转换的过程进行控制。模型中主要涉及到两种流,即ETL数据流和元数据流。每一步处理都需要使用到元数据信息,并且会产生新的处理技术元数据。

2 数据转换的内容

    数据抽取模块将数据从不同数据源抽取到数据转换模块中,经过各种不同类型的数据转换以满足不同数据集市对数据的要求。通常,数据转换包括7个方面的内容。

    2.1 集 成

    数据集成是指将若干个分散的数据源中的数据逻辑地或物理地集成到一个统一的数据集合中。可采用两种方法实现数据的集成:

    (1)将数据库A中的数据直接通过DBMS转换到数据库B中。该方法要求数据库之间具备直接转换的接口,此种转换技术速度较快,并且能解决两个数据库之间大多数的数据转换问题,但由于其数据的集成受到数据库DBMS功能的限制,因此该方法不具有通用性。

    (2)将数据库A、B中的数据都转化为中间数据集(如生成临时XML文件),再将中间数据集转化为某一类型的数据库。该方法适用于多种类型数据源(异构数据库、外部文档、历史遗留数据)的集成,其关键在于在元数据库中建立完备的数据字典,以反映数据源和XML文件以及XML文件和目标数据库之间的映射关系。数据映射字典的一种建议结构如表1所示。


表1 数据转换过程中的数据映射字典


31/3123>


 

评分:0

我来说两句