充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

联机分析挖掘(OLAM)技术的现状与发展



    联机分析挖掘,又称为OLAP Mining,它是联机分析处理技术与数据挖掘技术在数据库或数据仓库应用中的结合,是联机分析处理技术的新发展,也是近年来数据库领域的研究重点和热点。

    而数据仓库、联机分析处理和数据挖掘则是20世纪90年代中期国外兴起的3种决策支持技术。

    数据仓库(Data Warehouse,DW)是在数据库的基础上发展起来的。1992年,W.H.Inmon首次提出数据仓库概念:“支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合形式”。数据仓库为复杂分析、知识发现和决策提供数据访问。数据仓库在规模、历史数据、数据集成和综合性、查询支持等方面都和传统数据库有着本质区别。作为一种新型的数据存储地,数据仓库为数据挖掘和数据分析提供了新的支持平台。基于数据仓库的数据挖掘,面对的是经加工和概括的数据,简化了数据挖掘过程的某些步骤,大大提高了数据挖掘的工作效率。同时,数据仓库事先收集、归纳、处理了整个企业范围内的数据,为数据分析提供高质量的数据源,更好地支持管理决策。

    数据挖掘(Data Mining,DM)是在人工智能、机器学习中发展起来的,也称为数据库中的知识发现(KDD)。1995年在美国计算机年会(ACM)上首次提出数据挖掘概念:是从大型数据库或数据仓库中提取隐含的、未知的、具有潜在使用价值的信息或模式的过程。DM通过分析大量的原始数据,作出归纳性的推理,挖掘出潜在模式并预测客户的行为,为企业的决策者提供决策支持。

    联机分析处理(On-Line Analytical Processing,OLAP)是由关系数据库之父E.F.Codd于1993年提出的,是共享多维信息的、针对特定问题的联机数据访问和分析技术,具有快速性、可分析性、多维性、信息性、共享性5个特点。OLAP具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据分析变得轻松而高效,以利于迅速做出正确的判断,辅助决策。

    OLAM正是在这3种技术的基础上建立起来的。它的出现为企业管理和决策活动提供了一个新的工具,也为决策支持系统的研制提供了新思路。为了让大家对OLAM技术有一个全面的认识,笔者就目前OLAM的发展现状进行了归纳分析,并展望了它未来的发展趋势。

1 OLAM技术的现状

    1.1 OLAM技术的形成原因


    OLAP与DM虽同为数据库或数据仓库的分析工具,但两者侧重点不同。同时,随着OLAP与DM技术的应用和发展,数据库领域在OLAP基础上对深层次分析的需求与人工智能领域中数据挖掘技术的融合最终促成了联机分析挖掘技术。

    一方面,分析工具OLAP功能虽强大,能为客户端应用程序提供完善的查询和分析,但它也存在以下不足:

    1)OLAP是一种验证型分析工具,是由用户驱动的,即在某个假设的前提下通过数据查询和分析来验证或否定这个假设,这很大程度上受到用户假设能力的限制。

    2)OLAP分析事先需要对用户的需求有全面而深入的了解,然而用户的需求并不是确定的,难以把握。所以OLAP分析常常采用试凑法在大型数据库或仓库中搜索,不仅花时间,而且可能产生一些无用的结果。

    3)即使搜索到了有用的信息,由于缺乏应有的维度,从不同的视图得到的结果可能并不相同,容易产生误导。

    另一方面,数据挖掘虽然可以使用复杂算法来分析数据和创建模型表示有关数据的信息,用户也不必提出确切的要求,系统就能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过联想,建立新的业务模型以辅助决策。但它也存在一些缺点:

    1)DM是挖掘型分析工具,是由数据驱动的。用户需要事先提出挖掘任务。但对于用户来讲,很多时候预先是不知道想挖掘什么样的知识的。

    2)由于数据库或数据仓库中存有大量数据和信息,用户仅仅指出挖掘任务,而不提供其他搜索线索,这样DM工具就会遍历整个数据库,导致搜索空间太大,计算机将处于长时间的工作,而且结果中可能会生成很多无用信息。

    3)即使挖掘出了潜在有价值的信息,但它究竟用来做什么分析用,用户也可能不太清楚。

    可以看出,两种技术各存在不足,但同时也可以相辅相成。如果将OLAP同DM配合集成,一方面OLAP的分析结果给DM提供挖掘的依据,引导DM的进行;另一方面,在数据挖掘的结果中进行OLAP分析,则OLAP分析的深度就可拓展。这样用户就可以灵活选择所需的数据挖掘功能,并动态交换挖掘任务,在数据仓库的基础上提供更有效的决策支持。鉴于OLAP与DM技术在决策分析中的这种互补性,促成了OLAM技术的形成,其中所包含的关键技术可用公式(1)来表达:

    OLAM=DW+OLAP+DM     (1)

    但OLAM不是这3种技术的单纯叠加,而是指多种技术的无缝集成,这种集成将带来OLAM技术与其构件技术在基本概念、原理、技术、方法、机制、结构、使用等方面本质上的不同。

    1.2 OLAM概念的提出

    正是由于OLAP与DM技术的相辅相成性,在OLAM概念提出之前,实际应用中试图将OLAP与DM结合起来提供更加优质的数据分析和决策支持的思路早也有之。有文献提出“只有将OLAP技术、DM技术和DW中的庞大数据相结合,与企业先进的管理决策方法相结合,才能使DW在企业的经营管理决策中发挥巨大的作用”。一些厂商也开始在OLAP的基础上添加数据挖掘功能,如Business Object公司的Business Object产品中的决策树分析、DBMiner系统中的数据挖掘算法工具箱等,初步实现了两者的结合。而另一些是把数据挖掘算法集成在系统的底层功能中,如Micorsoft公司的SQL Server 2000中的关联分析方法在数据库端的集成就是实现OLAP与DM紧密结合的初步尝试。

    联机分析挖掘概念正式提出是在1997年,由加拿大Simon Fraser大学教授Jiawei Han等在数据立方体的基础上提出多维数据挖掘的概念,称为OLAP mining。这实际上是在OLAP系统的基础上,把数据分析算法、数据挖掘算法引入进来,解决多维数据环境的数据挖掘问题。因此这时的OLAM实际上还是OLAP和DM的松散结合。之后,国内外研发人员在这方面展开了积极的工作,试图将OLAP与DM技术有机结合起来形成真正的OLAM技术和产品。有文献对OLAM的概念进行了扩展,将其定义为联机分析挖掘处理(On-Line Analytical Mining Processing),其分析和挖掘的数据基础也扩大成包括多维数据模型和关系数据模型等在内的多种模型的异构环境,研究重点在如何实现OLAP与DM技术紧密集成。

    1.3 OLAM的功能特征

    OLAM融合了3种技术,兼有OLAP和DM的优点,在DW上的数据挖掘和分析更具灵活性和交互性。其功能特征如下:

    1)相对OLAP和DM技术,OLAM具有较高的执行效率和较快的响应速度。

    2)OLAM能对任何它想要的数据进行挖掘。OLAM建立在OLAP的基础之上,因此应能方便地对任何一部分数据或不同抽象级别的数据进行挖掘,甚至还可以直接访问存储在底层数据库里的数据。

    3)OLAM中,用户可以动态选择或添加挖掘算法,并可以动态切换挖掘任务。

    4)OLAM中挖掘任务具有多样性、算法具有复杂性,因此应具有标签和回溯功能。标签功能即是标记用户的操作状态功能,回溯指的是退回到上次操作状态。OLAM这种功能可以避免用户因算法的复杂性而在超立方体中“迷失方向”。

    5)OLAM具有灵活的可视化工具。可视化工具以丰富的图文有效地显示分析和挖掘结果给用户,从而实现交互式处理。

    6)良好的扩展性。这是指OLAM应该高度模块化,能与其他多个子系统集成。

    7)友好的人机交互能力。OLAM的决策分析过程是要在人的指导下进行,人作为系统的组成部分和系统应用密不可分。人与计算机分别承担各自最擅长的工作,实现资源的合理配置。

    1.4 OLAM的模型结构

    就目前来看,OLAM的结构体系还没有统一的模式。国内一些文献在这方面作了一定的研究,提出了一些OLAM模型。如认为OLAM体系结构和OLAP并没有本质区别,结构可以同一,并结合Web技术,提出了基于Web的OLAM模型;还有的给出了OLAM概念模型、逻辑模型和物理模型,其中的概念模型指出了必须执行的功能以及这些功能之间的关系,逻辑模型把概念模型中所定义的结构映射到可用软件、过程和体系结构的环境中,它是基于技术类型对基本设计原则的细化,是连接概念模型和物理模型的桥梁;提出了基于影响域的OLAM模型;将OLAM的体系结构分为4层:数据存储层、多维数据库层、OLAP/OLAM层和用户接口层。这些都是对建立OL AM模型结构的可喜探索。

    总之,设计一种高效、优化的OLAM体系结构,是OLAP、DM和DW 3种技术完善集成的重要保证,也是支持OLAM系统提供灵活可靠决策功能的硬件基础,这已成为研究人员正在努力解决的重点问题之一。

    1.5 OLAM的分析操作

    从OLAM的定义来看,它是建立在多维数据视图基础之上的。因此,对于OLAM的操作应是超立方体计算与传统挖掘算法的结合。这里所说的立方体计算方法一般指切片、切块、上卷、下钻、旋转等操作;而挖掘算法则是指关联规则、分类、聚类等挖掘算法。根据立方体计算和数据挖掘所进行的次序的不同组合可以有以下一些模式:

    1)先进行立方休计算、后进行数据挖掘。在进行数据挖掘以前,先对多维数据进行一定的立方体计算,以选择合适的数据范围和恰当的抽象级别。

    2)先对多维数据作数据挖掘,然后再利用立方体计算算法对挖掘出来的结果做进一步的深入分析。

    3)立方体计算与数据挖掘同时进行。在挖掘的过程中可以根据需要对数据视图做相应的多维操作。这也意味着同一个挖掘算法可以应用于多维数据视图的不同部分。

    4)回溯操作。OLAM的标签和回溯特性,允许用户回溯一步或几步,或回溯至标志处,然后沿着另外的途径进行挖掘,这样用户在挖掘分析中可以交互式的进行立方体计算和数据挖掘。

    1.6 目前OLAM技术存在的主要问题

    OLAM技术现在已取得很大的发展,但总的来说,目前研究工作仍处于起步阶段,很多间题还没有得到解决或重视。其中,OLAM技术面临的主要问题是:

    1)关于OLAM技术的界定模糊。系统体系结构标准和参照还没有出现,无法区别和衡量现有的所谓的OLAM系统。

    2)OLAM模型中信息的表示是OLAM技术的数据基础,目前还没有统一的标准来解决OLAM环境中多种信息如数据、模式等的规范问题。

    3)OLAM系统的数据基础是包括多种数据模型在内的异构数据环境。传统的基于关系数据模型或多维数据模型的OLTP和OLAP的任务/事务模型已不适合于OLAM系统。

    4)OLAM基于DM和OLAP,但不同于两者的单纯叠加,目前还没有一种优化的管理策略来成功融合这两种技术,实现无缝连接。

    总的来说,OLAM目前存在的主要问题是技术理论研究滞后于OLAM产品的开发。关于OLAM技术的基本原理、关键技术,系统整体组织结构、应用开发技术等问题的研究相对较少也不系统。

21/212>


 

评分:0

我来说两句