充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

商业智能在ERP系统中的应用研究(1)



    数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

    数据挖掘技术的分类

    数据挖掘技术充分利用机器学习、人上智能、模糊逻辑、人上神经网络等方法。按照研究方法的不同,可分为:

    ①归纳学习方法:如信息论方法(决策树方法),集合论方法(粗集方法,概念树方法等);

    ②仿生物技术方法:如神经网络方法,遗传算法;

    ③公式发现法:如物理定律发现系统BACON、经验公式发现系统FI)D;

    ④统计分析方法:如相关分析,回归分析,因子分析等;

    ⑤模糊数学方法:如模糊评判,模糊聚类等。数据挖掘按照功能又可分为描述型数据挖掘和预测型数据挖掘两种。描述型数据挖掘包括数据总结、聚类及关联分析等。预测型数据挖掘包括分类、回归及时问序列分析等。

    下面介绍集中比较典型的数据挖掘方法:

    (1)数据总结:继承于数据分析中的统计分析。数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统统计方法如求和值、平均值、方差值等都是有效方法。另外还可以用直方图、饼状图等图形方式表示这些值。广义上讲,多维分析也可以归入这一类。

    (2)聚类:聚类分析是根据物以类聚的原理,将本身没有类别的样本聚集成不同的群组,并且对每一个这样的组进行描述的过程。它的目的是使群与群之间差别很明显,而同一个群之间的数据尽量相似。

    聚类分析常用于客户关系管理。利用聚类技术,根据客户的个人特征以及消费数据,可以将客户群体进行细分。例如,可以得到这样的一个消费群体:女性占91%,全部无子女、年龄在3l到40岁占70%,高消费级别的占64%,买过针织品的占91%,买过厨房用品的占89%,买过园艺用品的占79%。针对不同的客户群,可以实施不同的营销和服务方式,从而提高客户的满意度。

    对于空间数据,根据地理位置以及障碍物的存在情况.可以自动进行区域划分。例如,根据分布在不同地理位置的ATM机的情况将居民进行区域划分,根据这一信息,可以有效地进行ATM机的设置规划,避免浪费,同时也避免失掉每一个商机。对于文本数据,利用聚类技术可以根据文档的内容自动划分类别,从而便于文本的检索。

    (3)关联分析:关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性:序列模式与此类似,寻找的是事件之间时间上的相关性,如对股票涨跌的分析等。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件概率应该符合一定的统计意义。

    对于结构化的数据,以客户的购买习惯数据为例,利用关联分析,可以发现客户的关联购买需要。例如,一个开设储蓄账户的客户很可能同时进行债券交易和股票交易,购买纸尿裤的男顾客经常同时购买啤酒等。利用这种知识可以采取积极的营销策略,扩展客户购买的产品范围,吸引更多的客户。通过调整商品的布局便于顾客买到经常同时购买的商品,或者通过降低一种商品的价格来促进另一种商品的销售等。

    对于非结构化的数据,以空间数据为例,利用关联分析,可以发现地理位置的关联性。例如,85%的靠近高速公路的大城镇与水相邻,或者发现通常与高尔夫球场相邻的对象等。

    (4)分类:目的是构造一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。

    元数据分类

    对元数据的合理分类,是对其有效管理的前提,目前对于元数据分类有很多种,从不同的角度可以将元数据分成不同的类蹦。按数据类型分为:基础数据元数据,数据处理元数据:按抽象层次分为:概念元数据,逻辑元数据和物理元数据:按用户使用角度来分:技术元数据和业务元数据:按元数据来源分为:工具元数据,资源元数据,外来元数据:按应用日的分为:管理维护元数据,更新元数据和分析元数据,等等。

    本文将元数据集市中的元数据划分为:技术元数据和业务元数据。技术元数据(technical metadata)是为企业技术用户和IT员工提供支持的元数据,而业务元数据(business metadata)是为企业业务用户提供支持的元数据。当开发人员和技术用户对企业应用系统进行维护和扩展时,技术元数据为他们提供所需的信息。例如,如果企业需要重新划分其他地理销售区域,信息主管就可以用技术元数据列出所有含有地理销售数据的程序、表和系统。这些信息使主管能够方便而迅速地估计出开发团队进行修改所需要的开发资源和时问,还可以帮助确定可能受到影响的所有其它系统。然后开发人员在实现新的地理销售区域时,可以使用其他技术元数据来帮助定位到具体的代码。因此,技术元数据对于维护和改进信息系统来说时至关重要的。技术元数据还可以帮助IT员工为信息系统的后续版本制定计划,还可以协助开发人员实际地实现这些变化。如果没有技术元数据,分析和实现这些变换就会变成一项困难而费时的任务。


    尽管创建元数据源的副本《抽取文件)会有一些额外的存储r丌销,但这些开销会相当小,因为元数据源文件中的数据量通常不会很大。另一方面,单独建立抽取层有三个优点:

    1)时效性

    抽取层对于保持系统中的元数据同步非常重要。为了说明这一点,可以假定有三张元数据仓库表需要从相同的元数据源得至0数据。如何构造一个进程直接从同一数据源构建这三张元数据表,当执行该迸程来构建其中一元数据表时,此时的元数据源可能已经变化了。当元数据源高度动态变化时,这种情况的可能性会更大。在不同时刻读取元数据时,元数据仓库中的数据就会不同步。通过在集成处理过程中一次性创建抽取文件,所有的元数据表可由该抽取文件构建,这就消除了可能的时效性问题。

    2)扩展性

    因为要创建类似于元数据源文件或表的抽取文件,所以只需要从元数据源一次性地读取数据。如果没有抽取文件或表,元数据仓库中的每张表都必须分别从元数据源中读取,这并不是开发人员所期望的。

    3)备份

    创建抽取文件提供了该元数据源的自然备份。因此,如果出现了不得不停止元数据集成处理的状况,那么可以在不影响元数据源的情况下轻易地撤消改动。


44/4<1234


 

评分:0

我来说两句