充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

数据挖掘阻止银行客户流失



当前,面对外资银行的激烈竞争,我国银行企业数据挖掘技术也越来越重视。于是,本期我们以一家名为ABCBank的虚拟的零售银行为例,就它所面临的客户流失问题,组织专题,探讨了金融服务业的数据挖掘概念

 
,以及利用Java数据挖掘技术(JDM)解决这些问题的解决方案。

我们利用名为ABCBank的一家假想的零售银行面临的业务问题,来探讨金融服务业的数据挖掘概念。ABCBank为个人和公司企业提供银行和金融服务,它在全国设有分行。此外还为客户提供网上银行服务。ABCBank提供诸多产品,客户很广泛,遍布全国各地。客户在收入水平、教育和专业资格、种族背景、年龄段和家庭状况等方面的统计资料大不相同。

但是,ABCBank正面临一些经营问题,它的许多客户流向了竞争对手,它想更清楚地了解关闭账户的是哪类客户。ABCBank还想采取积极措施提高客户满意度,从而主动地留住现有客户。

预测可能流失的客户

ABCBank可利用其事务数据库和分析数据库里面收集的客户数据,找出与可能流失或者不可能流失的客户有关的模式。使用数据挖掘分类函数,ABCBank可以预测哪些客户可能会流失,并了解这类客户的特征或者概况。更清楚地了解客户行为使ABCBank能够制订业务计划来留住客户。

分类是用于为实例分配目标属性的离散值,名为类或者类别。目标是一种属性,其值使用数据挖掘来预测。在该问题中,目标有两个可能值:流失客户(Attriter)和非流失客户(Non-attriter)。引用模型建造数据集时,值“流失客户”表明客户关闭了所有账户,值“非流失客户”表明客户在ABCBank至少有一个账户。引用模型应用数据集进行预测时,值“流失客户”表明客户可能流失;“非流失客户”则表明客户不可能流失。预测往往与表明客户流失可能性大小的概率相关。如果目标属性只有两个可能值,该问题称为二元分类问题。

收集有价值的数据

任何数据挖掘项目的一个重要步骤就是,从企业的数据源收集相关数据。在本例中,我们采用了可能的客户属性的一个子集,如表1所示。

表1列出了CUSTOMERS数据集的物理属性细节,包括姓名、数据类型和描述。属性名称引用数据库表的列名或者平面文件的字段名。属性数据类型引用该属性的许可值类型。JDM定义了整数、双精度和字符串这三种数据类型,它们是通常用于挖掘的数据类型。JDM一致性规则让厂商可以在需要时添加更多的数据类型。属性描述可用于解释属性的意思或者描述许可值。物理数据特征一般由数据库元数据捕获。

用户还可以指定数据挖掘特有的逻辑属性特征。用户可以把物理名称转换成逻辑名称,以便描述更具体,因而更易理解。逻辑数据特征还包括数据挖掘属性类型、属性使用类型和数据准备类型的说明,表明这些属性在数据挖掘操作中应当如何解释。表2列出了表1所示的CUSTOMERS数据集的逻辑数据说明细节。

属性类型表明了属性数据特征,如该属性应当作为数字型、类别型还是顺序型来对待。数字型属性的值应作为连续数字来对待。类别型属性是这种属性: 属性值与离散的标准类别对应。顺序型属性也是有离散值的属性,但顺序相当重要。

属性使用类型指定了属性是活动型(应作为输入值用于挖掘)、非活动型(被排除,不用于挖掘),还是补充型(与输入值一并提供,但不是显式用于挖掘)。在表2中,使用类型这列将客户编号、姓名和地址等属性指定为非活动型,因为这些属性是识别符,无法预测客户是不是流失客户。所有其他属性都是活动型,作为输入值用于数据挖掘。

除了通常用于加载及转换数据的抽取、转换和加载(ETL)操作外,数据挖掘还涉及针对特定算法的数据准备。这种数据准备包括转换和数据规范化。在表2中,数据准备项列出了哪些属性已经过准备用于模型构造。抽取、转移和加载(ETL)是指这种过程:从操作数据源或者外部数据源抽取数据,然后转换数据(包括数据清理、聚合、汇总及集成)及其他处理,最后把数据加载到数据集市或者数据仓库里面。

解决方案

数据挖掘人员分析了CUSTOMERS数据集中的属性值后,发现了数据的一些奇特之处。资本收益这个属性有些极值超出一般群体的范围。图1显示了数据中资本收益值的分布。

请注意: 很少有客户的资本收益超过100万美元; 在本例中,这类值作为异常值(outlier)来处理。异常值指特定属性的值与该属性的其他数值相比不寻常。

在本例中,资本收益这个属性基于值分布的有效范围是2000美元到100万美元,如图1所示。在JDM中,我们使用异常值识别设置来指定有效范围或间隔,从而识别模型构造过程的异常值。作为模型构造过程的一部分,有些数据挖掘引擎(DME)会自动识别及处理异常值。JDM让数据挖掘人员可以根据属性指定异常值处理选项,让算法知道如何处理构造数据的异常值。异常值处理指定了属性异常值是作为丢失值来处理,还是作为原始值来处理。基于问题需求和特定厂商实现的算法,数据挖掘人员可以显式选择异常值处理或者把它交给DME。

数据挖掘人员在分析数据时注意到州这个属性有一些无效项。属于美国居民的客户都有两个字母缩写的州值,代表美国50个州之一或者哥伦比亚特区。为了向模型构造表明有效的属性值,可以在逻辑数据说明里面指定类别组(category set)。类别组描述了类别属性里面值的特点。

我们的CUSTOMERS数据集中“非流失客户”多得不成比例:20%的实例是流失客户,而80%是非流失客户。为了构造无偏模型,数据挖掘人员平衡了输入数据集,以便含有数量相同的两种实例,而每个目标值使用分层抽样(stratified sampling)。在JDM中,先验概率(priorprobabilities)用于表示属性值的原始分布。原始目标值分布改变时,应当指定先验概率,那样算法就可以做相应考虑。

ABCBank的管理人员告知数据挖掘人员: 如果流失客户分类有误,也就是被预测为非流失客户,损失更大。这是因为失去现有客户、获得新客户所需成本比设法留住现有客户高得多。为此,JDM允许成本矩阵的说明可以指定与可能错误预测相关的成本。成本矩阵是一张N×N表,它定义了与错误预测相关的成本,其中N是可能目标值的数量。在本例中,数据挖掘人员指定的成本矩阵表明,预测客户不会流失而实际上会流失所导致的成本是预测客户会流失,而实际上不会流失的三倍。

在本例中,我们更想知道可能会流失的客户,所以“流失客户”值被认为是肯定目标值——这个值是我们有兴趣预测的。在计算提升率和ROC测试度量时,肯定目标值必不可少。“非流失客户”值被认为是否定目标值。这样我们可以使用两个术语:错误肯定和错误否定。如果某实例已知有否定目标值,而模型预测的是肯定目标值,就会出现错误肯定(FP)。如果某实例已知有肯定目标值,而模型预测的是否定目标值,就会出现错误否定(FN)。



TAG: 数据 挖掘 银行 客户 流失


 

评分:0

我来说两句