充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

基于Web的多维数据仓库建模方法研究



引 言

    Internet作为为时代的基础构架,涵盖了更为广泛的信息类型的内容,有着更为广泛的应用范围,各类应用的Web数据在深度和广度方面的迅速发展,使WWW成为全球化信息传播和信息共享的最有潜力的数据中心。将Web数据集成到企业的数据仓库中去,以便更好地支持企业的经营决策和联机分析处理,是当前数据库研究的一个热点。这一过程需要从相关的Web数据源抽取感兴趣的数据,然后对异构数据进行集成,再对集成后的数据加以适当的转换,将其装入到数据仓库中。把这个过程称为数据仓库化Web数据。其产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品时,业界掀起了数据库热。比如Informix Gongside公司的数据仓库解决方案Oracle公司的数据仓库解决方案Sybase公司的交互式数据仓库解决方案等等。这同时也引起了学术界的极大兴趣,国际上许多重要的学术会议,如超大型数据库国际会议VLDB数据工程国际会议Data Engineering等都出现了专门研究数据仓库、联机分析处理Online Analytical Processing简记为OLAP和数据挖掘Data Mining简记为DM的论文。在激烈的市场竞争中企业必须把业务经营同市场需求联系起来,在此基础上做出科学、正确的决策,以求生存,为此,企业纷纷建立起了自己的数据库系统,由计算机管理代替手工操作,以此来收集、存贮、管理业务操作数据,改善办公环境,提高操作人员的工作效率。

    然而,传统的数据库应用系统并不能很好地支持决策,由于传统的数据库应用系统是面向业务操作设计的,只是借助计算机快速、准确处理优势简化了具体操作人员的劳动强度。而企业的中高层领导却没有相应的系统,企业需要新的技术来弥补原有数据库系统的不足,需要把已经广泛收集到的数据集成到一起,那就是数据仓库Data Warehouse简记为DW,以便从业务数据中提取有用的信息,帮助他们在业务管理和发展上做出即时、正确的判断,因此数据仓库成为信息技术领域非常热门的话题之一。

1、多维数据仓库数据建模的发展现状

    数据仓库总是物理地分离存放数据,这些数据源干操作环境下的应用数据,由于这种分离,数据仓库不需要事务处理、故障恢复和并发控制机制,通常,它只需要两种数据访问:数据的初始化装入和数据查询;数据经加工和集成进入数据仓库后是极少或根本不修改的,数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务,数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。在数据的存储方面,目前解决多维数据存储的方法一般有两种:关系型和多维型简称为ROLAP及MOLAP。其中ROLAP定义为在建模时,将多维数据模型转换成为关系模式进行物理存储。MOLAP定义为采用多维数据库的方式对海量数据进行组织和管理。

    多维数据模型,从理论角度来看这些数据模型分为以下几类:简单立方体模型、结构化立方体模型、统计对象模型。

    简单立方体模型把数据集合视为多维空间中的点集,把数据集合中的属性分为维和度量两类,维属性用来描述度量属性,是多维空间的维度,度量属性用来进行分析处理,是多维空间中的点。简单多维数据模型具有一个致命的弱点,即没有维层次结构的概念和语义,不能表示维层次结构。简单立方体模型包括星型模型。

    结构化立方体模型:考虑了如何表示多维数据集合的维层次结构问题,为用户导航立方体提供了更好的指导。这些信息在查询优化时也很有用。一般通过以下途径获取层次关系:分组关系、维合并功能、度量图、上钻功能、格或把明确的层次树结构作为立方体的部分。

    统计对象模型:支持结构化的分类层次,但是每个结构化的分类层次必须与一个特定的聚集函数相关,而且每个结构化的分类层次只能定义在一个度量属性上,用来回答特定的统计分析查询。显然,统计对象模型具有很大的局限性,缺少灵活性。但是这种模型使用聚类语义提供一些保护,避免得到一些对用户无意义的或不正确的结果。

2、数据仓库化Web数据的模型

    MIX模型:Web数据缺乏统一的结构和语义,大多数Web数据是无结构或半结构化的,同时,不同的Web源的Web数据有着不同的上下文语义。因此,在表示Web数据时,必须把Web数据潜在的上下文语义信息和结构信息作为Web数据的元数据信息保存下来。MIX就是这样一个表示Web数据的模型。

    MIX的全称是Metadata based Integration model for data X-change意即基于元数据的可变化数据集成模型。它是一个基于语义对象概念的自描述的Web数据模型。在mix模型中,数据的上下文解释作为数据的一部分来表禾同时,为了统一数据的语义,MIX模型中利用了领域相关的本体概念。MIX模型对象是一个语义对象,用来表示一个数据项及其存在的上下文语义。每个语义对象有一个概念标记,指明了该对象与它描述的现实世界的关系,这些概念标记来自于与语义对象相关的领域范围内的标淮化概念术语,即所谓的本体领域相关的本体概念。

    为将Web数据集成到企业的数据仓库中,提出了一个数据仓库化Web数据的模型。该模型利用MIX模型来表示Web数据,利用扩展雪片模式组织数据仓库的数据。同时,模型中利用了领域相关的本体概念。

    将Web数据集成的过程是这样的:数据抽取程序从Web数据源获取感兴趣的数据,将其打包成包括语义信息和结构信息的MIX对象,传送给数据集成中心的元数据仓储库;数据集成中心将来自不同Web数据源的异构mix对象集成,使得与同一本体概念对象对应的MIX对象具有统一的语义和结构;然后,集成后的MIX对象再经数据转换处理器的处理,将MIX对象转换为数据仓库中的事实表和维表,载入数据仓库,完成Web数据的物化。


图1 基本结构模型


3、实 例

    考虑一个简单的例子:假设利用数据抽取程序从Web数据源得到了两个关于产品供应信息的mix对象,前面已提过,这两个复杂MIX语义对象有着不同的语义上下文信息和结构信息。语义上下文的区别体现在生产商(Made)和价格(Price)属性上:语义对象A中,生产商以(Last.frist.second)的形式给出,而语义对象B中则以(Last.frist)形式给出;语义对象A的价格单位是欧元,语义对象B的价格单位是美元。再看结构差别:语义对象A中包括语义对象B中没有的型号(Number)、年份(Year)属性,却缺乏语义对象B的产量(Output)属性。显然,必须将上下文语义和结构信息统一起来,才能进行进一步的数据处理。为此,数据转换函数需要做两步工作:首先,从本体映射服务器的本体一关系对照表中读取与本体概念“产品”对应的数据仓库表结构,按照此结构统一它们的语义上下文,接下来需要进一步统一它们的数据结构,这一步只需把所有的语义属性都加到集成结构中即可。以上工作完成后,需要按照统一后的数据结构和语义上下文修改相应mix对象。对于某个MIX对象中新增加的属性,需将其值置为某个默认值。经过改造,两个MIX 对象可表示为如图所示,其中,对各个语义对象新添加的语义属性,其值默认为null。

    如下:
    SemobjA'=<ModeOffer.︱
    <StoreName.OfferA>.
    <Address,An Road,XinNing,QingHai,China,︱
    <AddressFormat,Road,City,Provinee;Country︱>,
    <URL,http://www.danchan.com>,
    <Offer Date,2005-05-10,︱<DateFomat,yyyy-mm-dd>>,
    <Made,︱
        <Number,0822276543>,
        <Name,Comper>
        <Made,inade ww,NameFormat,Last,First︱>,
        <Year,2002>,
        <Output,null>,
        <Price,3455.00︱Courreuey,EUR︱>
        <Taxrate,1% >
        ︱>,
    <Quantity,20>︱>
    SemobjB'=<ModeOffer.︱
    <StoreName.OfferA>.
    <Address,A Road,Lanzhou,GangShu,China,︱
            <AddressFormat,Road,City,Provinee;Country︱>,
        <URL,http://www.danchan.com>,
            <OfferDate,2005-05-10,
    <DateFormat,yyyy-mm-dd>︱>,
    <Made,︱
        <Number,null>,
        <Name,Comper>
    <Made,inade ww,NameFormat,Last,First︱>,
        <Year,null>,
        <Output,null>,
        <Price,3005.00︱Courreuey,EUR︱>
        <Taxrate,10.9% >
        ︱>,
    <Quantity,20>︱>

4、结束语

    数据仓库与WWW的结合是当前研究领域的热点。针对Web数据在进行企业决策支持和联机分析处理方面的存在的巨大潜能,该文在MIX模型基础上,提出了一个数据仓库化多维数据的模型,并对数据集成等进行了讨论。




 

评分:0

我来说两句