充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

某移动企业基于Teradata的商业智能应用方案分析



Teradata为国内某移动企业建设了经营分析系统,整个系统以NCR海量并行处理服务器以及Teradata海量并行处理关系数据库为核心,完成业务源数据的采集、数据重构、分析数据模型的设计和实施,最终向企业提供智能化的分析应用功能集合。

经营分析系统的应用

图1为本系统的逻辑架构。该分析系统获取企业各类业务系统数据,并在中央数据仓库以关系数据模型中进行有机组织,最终向企业提供内容丰富、形式多样的分析应用,并通过企业门户提供服务。

按照应用类型划分,系统共包含了四个方面的分析应用模式,分别针对企业不同层次的用户(如图2所示):

在数据挖掘专题和动态数据分析应用方式中,数据处理量和实效性要求均比较高,Teradata为电信企业提供了高性能的大型数据处理平台,从以下几个方面保证了上述两个应用的成功实施和有效利用。

关键业务指标应用

关键业务指标展示企业内部特定领域的关键数据信息,企业整体情况进行概括描述,使用者一般为企业的决策层及各部门主管。

图2对企业的收益指标、用户数指标以及话务量指标进行了综合的趋势展示。真实、及时、直观地反映了企业的关键数据。从图3可以看出,该企业在建设经营分析系统一年多来,运营情况稳步上升。

多维分析应用 多维分析应用提供对数据的多角度分析能力,利用各种多维分析工具,对数据在不同层面的表现和关联性综合考量。多维分析及相关分析报表的应用,是目前经营分析系统的主流应用形式,其使用者主要是市场分析人员及专业数据分析人员。

多维分析可以提供多种数据的趋势性、宏观性综合分析,这是传统报表所不能完成的。传统的报表对于电信客户的分析非常简单,利用多维模型进行的客户特征分析,对客户进行深层次、多角度的分析和研究,大大提高了市场分析人员的分析成效。

该电信企业通过对多维客户分析模型的30多个角度(资费类型、年龄层次等),近20项统计数值(客户数、客户收入等)进行全面、综合的分析,通过对客户模型的细致分析,寻找出客户对电信资费的新需求,据此结合市场情况及客户消费心理,增加了很多新的资费套餐,使得当年用户量显著增加,月新增用户的收入贡献占到了总收入的20%以上,成为拉动收入增长的一大动力。

多维分析模型还可以通过与分析型报表的结合,为电信企业提供各种细节数据,为企业的市场、客户细分,以及个性化策略的制定提供有力帮助,例如竞争对手的多维分析模型及其客户明细的提取应用,就是这样的一个实例。在以往的高端客户争夺过程中,常常遇到两个比较棘手的问题:

● 如何确定竞争对手的高端用户?

● 如何与竞争对手高端客户取得联系?

使用竞争对手多维分析功能后,上述问题可以得到解决。首先,企业可以将竞争对手用户与企业内用户通话量最多的用户一一罗列,使得竞争对手高端用户一目了然;同时该功能还列出与这些用户联系最紧密的企业内用户清单。利用“曲线营销”和“亲情营销”的方式,让企业内用户将他们的亲朋好友“推荐”过来,以此达到高端客户争夺的目的。

目前,该电信企业不但提炼出与企业内客户网间话量最多的一万多户竞争对手客户号码,以及与其发生话务量最多的几个企业内客户号码。据此,同时又通过多种途径收集与这些客户相关的资料,最终形成了竞争对手高端客户的第一手资料,为争取高端大客户提供了强有力的数据支撑。

通过企业市场部门一系列的工作,已有2千余户大客户从竞争对手转为该企业用户,转网用户当月户均消费金额远高出该企业平均ARPU值60%多,抢占工作初见成效。

为该电信企业竞争对手多维分析的实例,竞争对手高端用户分析是通过网间互通话单进行细分,获取高话务量的目标客户群,并从竞争对手客户号码中提取高端客户号码清单,以及与我方通话最多的几个号码,为开展对高端客户的争夺提供最直观的信息。

数据挖掘应用 目前的国内电信市场已趋饱和。即使每月的客户流失率不高,每年要补足流失的客户也是相当困难的工作。以五百万客户数为例:每月0.5%的客户流失率相当于每年要补足30万流失的客户。即使愿意投资也不是一定能获取规模的用户群体,因此电信企业必须保育客户。该电信企业的《客户流失预测分析专题》利用数据挖掘技术的营运工具, 实现与客户的及时沟通,避免流失带来的营收损失。该系统提供可能会流失的客户名单,以便针对特定的客户群体,更有效、更合理地利用资源进行客户挽留工作。

在项目实施中遵循了Teradata数据挖掘方法论的5个阶段(即:定义业务问题范围、选择和抽样、探索型收据分析和建模和实施),采用的挖掘工具是Teradata Warehouse Miner,其最大特点是“数据库内”(in-dbs)挖掘,性能高同时有效避免了数据不一致的问题。

● 定义业务问题范围。客户流失可分为主动流失(主动销号)和被动流失(被局方拆机),流失之前会进行预备处理,称为预销和预拆。为了更早地发现流失倾向较高的客户,应将目标锁定在预销和预拆的客户群。

● 数据准备。数据准备阶段包括数据清洗和预处理、物理数据模型(PDM)、数据的抽取转换和加载(ETL)以及选择抽样。通过理解从客户入网到流失整个生命周期内的业务流程和相关要素,从数据仓库中抽取了流失基础客户群、客户基本资料、客户缴费资料、客户投诉资料、客户账单、客户通话资料等信息,在此基础上,进行离散化形成标志字段,这样就可以用决策树算法来进行预测分析。

该企业目前满足限制条件的客户数为Y万人,我们从中随机抽样出Y/3万作为训练集,Y/3万作为验证集,Y/3万作为测试集。

● 探索型数据分析 (数据探索)。在数据分析过程中,我们常用可视化的工具或统计分析等方法,来展示及探索(Explore)各个变量对客户流失的影响,包括Histogram、Frequency、值分析、相关分析等,然后将区分强度的变量作为客户流失的特征引入到模型中。

● 建模。通过探索型数据分析,把所有数据准备好之后,采用决策树算法来预测客户的流失倾向。决策树方法可以建构出合乎逻辑且易解读的决策规则(Decision rules)。决策树将已有的数据转化成有效的资源及知识,并以逻辑性的树状图解释,供进一步的策略分析或决策。

应用Teradata Warehouse Miner数据挖掘工具建立客户流失预测模型,训练样本数为Y/3万,模型精度为96.2%。

● 模型发布。客户流失预测分析模型中,决策树的输出结果会产生多个客户的流失群组。当营销部门欲推行一个客户挽留计划时,可按照客户流失倾向的高低对客户进行排序,找出最可能流失的客户群,以最少的成本,最适当的沟通,达成最高的客户挽留效果。同时分析人员可以用其他的分析角度更进一步了解名单中即将流失的客户特性。

模型发布后其精度会随实际情况的变化而逐渐退化,因此需要定期进行模型评估,当精度显著下降时应重新调整训练模型,以保持模型的有效性。

● 模型评估。流失客户预测模型评估的内容包括模型的准确率和LIFT。当月的目标客户人数为170余万人,其中流失人数为9万余人,流失率为5.29%。

① 命中率(如图3所示)

X轴:按流失倾向评分从大到小排序后的客户占目标客户人数的百分比;

Y轴:前x%的客户中,被准确预测为流失的客户占这批客户的百分比,即命中率。

在不用模型的情况下(最下方直线),任意给出x%的客户名单,其命中率为常数,等于总体流失率(5.29%);在使用模型的情况下(上方曲线),给出流失倾向最高的前x%的客户名单,其命中率明显高于不用模型的命中率。

② LIFT(如图4所示)

X轴:按流失倾向评分从大到小排序后的客户占目标客户人数的百分比;

Y轴:(前x%的客户中的召回率)/(x%)。

在不用模型的情况下(最下方直线),任意给出x%的客户名单,其召回率等于x%,因此LIFT为常数,等于1;在使用模型的情况下(上方曲线),给出流失倾向最高的前x%的客户名单,当x<0.26时LIFT值在8.57到11.33之间,即使用模型所抓到的流失客户数是不用模型时的8~11 倍;当x<4.28时,LIFT值不低于6.69,即使用模型所获取的流失客户数是不用模型时的6.69倍以上。

该电信企业定期将流失倾向值处于一定范围内的用户清单提取出来,并根据预测的流失原因进行客户挽留工作。通过数据挖掘模型的帮助,连续两个月根据预测名单进行挽留后,总体流失率从5.3%下降到4.6%,流失人数减少七千余人,客户挽留工作效果显著。

图5为该企业利用数据挖掘结果对流失倾向较高的大客户(月平均消费150元以上的客户)群体进行挽留工作后的成效统计。不难看出,在有针对性的挽留工作中,有近60%的客户被挽留,其直接的经济效益为每年540万元(3000客户×150元月消费×12月)。

综上所述,我们能够明显看到客户流失预测分析模型的有效性,这一点在理论验证和实际工作效果中均得到了验证。但是同时也有一些新的与业务有关的问题出现,例如由于客户登记的资料不够完善和真实,导致了相当一部分要流失的客户失去联络,从而阻碍了挽留活动。这反过来又推动了企业加强业务体制的完善和管理,这也是数据挖掘的目标之一。




 

评分:0

我来说两句