充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

基于SQLServer数据仓库的研究与实现



    数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。这个就是Data Warehouse。

    数据仓库的构建是相当复杂的,他结合了数据仓库的前端技术和很强的业务要求,IBM、Oracle、Sybase、CA、NCR、Informix、Microsoft、和SAS等有实力的公司相继(通过收购或研发的途径)推出了自己的数据仓库解决方案,BO和Brio等专业软件公司也在前端在线分析处理工具市场上占有一席之地。下面针对其中最具实力的IBM、Oracle等几家公司数据仓库解决方案的性能和特点做分析。

    IBM公司提供了一套基于可视数据仓库的商业智能(BI)解决方案,包括:Visual Warehouse(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度;数据存放在系统指定的DB2 UDB数据库中。

    Oracle数据仓库解决方案主要包括Oracle Express和Oracle Discoverer两个部分,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库,已经问世的Oracle 9i把OLAP和数据挖掘作为重要特点。

    Sybase提供的数据仓库解决方案称为Warehouse Studio,包括数据仓库的建模、数据抽取与转换、数据存储与管理、元数据管理以及可视化数据分析等工具。Adaptive Server IQ是Sybase公司专为数据仓库设计的关系数据库,它为高性能决策支持系统和数据仓库的建立作了优化处理,他提供了完整的数据仓库解决方案Quick Start DataMart,具有良好的性能,并支持第三方数据展现工具,另外,Sybase可以提供面向电信、金融、保险、医疗保健这4个行业的客户关系管理(CRM)数据仓库决策产品。

    Informix于1998和1999年相继收购了国际上享有盛誉的数据仓库供应商Red Brick System和数据管理软件供应商Ardent,并提供了完整、集成的数据仓库解决方案。该解决方案还包括一个“快速启动”咨询服务,能够帮助用户快速完成数据仓库或数据集市的开发。它能够集成Microsoft IIS或Netscape Enterprise/FastTrack服务器,从而支持基于Web的数据仓库应用。

    Business Objects(BO)是集查询、报表和CLAP技术为一身的智能决策支持系统,它使用独特的“语义层”技术和“动态微立方”技术来表示数据库中的多维数据,具有较好的查询和报表功能,提供钻取(Drill)等多维分析技术,支持多种数据库,同时它还支持基于Web浏览器的查询、报表和分析决策,正因为如此,几乎所有的数据仓库解决方案都把BO作为可选的利用Web方面进行数据展现工具。

    综合以上对市场上的各种颇据前景的数据仓库提供商提供的各种数据仓库实施方案,可以看出,数据仓库面对不同的行业业务需求会有不同的成熟的解决方案,同时他们都有也必须有庞大有效的DataBase进行支持,比如IBM的DB2和Microsoft的SQLServer。

    随着国内信息化建设的日益提高。各类客户的业务系统所积累的业务数据日趋膨大。企业的领导者随着市场竞争的加剧,非常希望能从纷繁的业务数据中提取综合反映企业、单位综合经营状况的信息,从而帮助决策。数据仓库技术的日趋成熟,正好可以有效的解决上面的问题。但现在多数厂商提供的数据仓库解决方案已高昂的价格把大多都用户拒之门外,微软MicrosoftSQLServer是全球性价比最好的数据仓库解决方案,同时也是全球布置最多的数据仓库解决方案。

    下面,我们就对一个中型企业的数据库解决方案的框架进行阐述,企业的需求如本段开始所描述的帮助决策,那么,整个数据仓库决策系统由三部分组成:第一部分是由用户数据源到业务智能中央数据库的过程;第二部分是根据用户业务模型建立业务智能分析模型;第三部分是面向终端用户进行数据的发布和多维分析工作。方案中,数据的第一部分采用微软的DTS通过标准接口OLE DB或ODBC(针对不支持OLE DB的数据源,如:Sybase)定义的数据源连接,通过DTS自带的抽取规则或使用T-SQL脚本语言定义数据抽取、清洗和转换方法,使用DTS提供的Package及工作流功能定义各Package的执行顺序,使用SQLServer中设置的定时任务对由DTS定义的任务包进行统一的管理和调度;业务智能系统中央数据库就选用SQLServer2000,其具体产品的选择将视用户的现有数据量及数据增量情况确定,一般推荐用户使用SQLServer Enterprise Edition。

    在中央数据库的实施过程中需要考虑数据量与效率、系统安全性与数据安全性、备份与还原策略等问题。这些问题的解决需要考虑使用SQLServer2000的分布式处理,Windows2000的集群策略以及SQL Server2000的数据同步、数据定时备份和还原设置,业务智能解决方案的核心部分是分析模型的构建和管理,这部份我们采用的是SQLServer2000自带的OLAP服务器并使用Analysis Manager完成整个模型的构建,指标的设置、维度的设计、计算指标的定义(应用MDX)、模型分区设计、通过ADO MD和DSO进行模型操作应用设计,设置多维数据集存储模式、定义多维数据集的聚合策略以及多维数据集的处理、多维数据集的备一份及还原等操作,业务智能系统的前端数据分析工具是整个系统的重要部分,通过这些工具用户可以轻松访问多维模型中的数据。这部分可以是第三方公司或者自主开发一些数据展示组件,比如BO。BO由多种产品组成:多维数据分析工具(iAnalyze)、 报表工具(iReport)和挖掘工具(iDMine)组成。它采用Browser/Server结构,通过IIS和应用程序服务器对远程数据集进行存取、网络传输,然后在客户端显示。

    多维数据分析工具和报表工具使用ADO MD接口对多维数据集(CUBE)进行数据访问,使用MDX语句向OLAP Server提交查询请求并获得结果集。挖掘工具则使用OLE DB FOR Datamining接口与远程的挖掘服务器进行数据交换,采用XML进行数据传输并使用PMML对挖掘结果进行描述。

    以上是一个完整的企业级数据仓库组件的过程,企业中如何能够真正实现对现有庞大数据的数据仓库级存储和分析,对领导决策提供支持,是一个很复杂的过程,可参考具体实施情况,综合成本、效益、结果等因素,择优而实施,以实现数据仓库实施的成功。




 

评分:0

我来说两句