充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

商业智能和数据挖掘的深度应用



2008年7月2日,第五届中国电信业信息化论坛在北京举行。本次会议的主题是“全业务运营的电信IT之道”。会议将汇聚各路信息化精英企业,共同探讨2008年中国电信业信息化之行军方略。

 

上海市信息学会会长、天律董事长黄晖

黄晖:下面我做一个演讲,我演讲的题目改革“商业智能数据挖掘在电信行业信息化方面的深度应用”。3G时代即将到来,很多的运营商会越来越多地挖客户,但是客户也越来越精了,所以我们如何加强客户服务,我们一定要把数据利用好。

那么,数据通过什么来服务,就是通过我们的精准的营销、个性化的服务。最后,还有一个问题,是跟数据有关的,就是科学化的决策。以前我们凭经验,今后可能要靠模型。

那么,用什么样的技术呢?数据挖掘也在迅速地发生着变化,它吸收了传统的统计方面的技术,同时挖掘了自己的数据挖掘方面的算法。我大概列了一下,统计方面像聚类分析、因子分类、回归等等,右边都是新的数据挖掘的方法。而这两个技术,来自于不同的方面,统计分析的方法更多地起源于高校的应用数学和专业,而数据挖掘更多来自IT行业和用户。

今天SAS也来介绍了,他们是一个很著名的世界品牌,我们也有一个马克威分析系统电信版,这是国家发改委采用的一套统计分析的数据挖掘软件,现在受到了政府的推广和推动。那么,我们做出来的电信版,是和上海电信研究院联合研制的。它主要是针对电信业务,等一下我会简单介绍一下。

我们花了整整1年的时间,在马克威分析系统平台的基础上,结合上海电信一些具体的业务,以及电信行业具体的数据,来专门研制这个软件,我们已经获得了正式的知识产权和产品化的过程。

它的特点是什么?它的技术架构很新,因为旧的一些软件都是用其他的语言编写的算法,我们是用C++编成一个内核,用Java界面封装以后,开创一个Java的平台。可以满足互联网纯粹用IE浏览器来调用,满足你到任何的地方办公都可以浏览。

第三个,我们的参数都是在电信数据反复的训练和运营的过程当中,找出最优的一些算法,配置在上面。所以,这一点是真正的个性化的定制,而且我们是全中文的。而且,这个软件最关键的是什么呢?第一它不需要编程,一般的人都可以用。第二,我不每年收你的只租不卖的费用。那么它的工作流程我大概说一下,从数据的抽取到数据的清理,这样一个专门的界面和平台来做,然后是探索分析,你有什么变量的特征点击一下,他马上用表和图绘制出来。

第三个就是建模,你把模加好了,用数据来检验,然后你把这个模型确定下来。然后来看模型评估,我们有很多的评估方法,而且这个结果都可以保存下来。最后,你可以把它应用到你的业务里面去。所以,我们现在已经有很多的具体的业务应用在上面。所以,今后的模型还有一个模型库等等。那么,数据挖掘的功能这里面都有,而且是比较前沿一点,我们都是用最新的技术来做的。

那么,这个软件主要解决什么问题?我这里介绍的是四大问题,就是电信业面临最紧迫的四大问题。第一个是客户分群,究竟你的客户是一个什么样子的。第二个客户流失,什么样的客户会流失,为什么会流失,你应该怎么预测他们。第三个是新业务响应,你推出一个套餐、新业务,什么的人来响应你。第四个是关联消费,就是某一个用户用了你这方面的业务,还会用你什么其他方面的服务。主要是解决这4个问题,但是我们可以个性化的组建你想结果的其他的问题,因为我们这个算法都完备了,可以简单地组合应用于其他的领域。

我们简单地看一下,我们用小灵通的客户做的分析,他们提供了120万条记录作为一个具体的应用。那么,分析我们主要是首先分群,我们按照各种不同的纬度,我们有两种变量的清单,一个是K-Means,一个是神经网络。你只要一拖一拉,把你需要的数据拉进来,然后把变量设置一下,然后设置一下模型,就可以了。从分群分类的角度来讲,有各种不同的纬度,我们注重的是什么呢?按照用户的消费行为,他打电话的具体行为,这里面牵扯到了很多很多的参数。如果你用统计的方法,年龄、性别、地区等等,这个很快就可以做出来。但是,这个太简单,我们要用100多个变量,来做行为方面的分群分类。这个是我们使用的一些变量,各种各样的变量,这个是我们真实的电信方面的数据,这个是完全针对电信的。所以说,这里面很多的变量,有各种各样的变量等等。

我们用这些变量,把上海电信的小灵通客户刻划成8个类型,还有另外两个我们没有列上,没有构成完全的一类。比如说有倾情长聊、呼入为主、长途强势、IP突出、本地大众、夜间积极、频繁出入、主叫集中,你知道了分类,制定就好办了。

第二个是流失,流失也可以各种不同的角度。首先,我们简单地是找出它的社会特征,找出他的入网特征,最关键是他的消费特征和一些客服等等。今天下午一开始的时候,河南电信的王总讲到了呼叫转移,但是我们发现了各种各样的特征。什么样的客户容易怎么跳,在多长时间跳,他往往跳到哪里去,从哪里来的客户跳到哪里去,他会待多长的时间都可以预测。

这也是针对我们所有使用的变量,最后的预测值我们是反馈到一个数据库里面,把这个特征找出来,然后把他每一个用户,他是否会流失,他流失的概率有多少,他流失大概做一个什么样的时间段,我们同时把这些信息写回到你的个人信息里面去。所以,做业务的人,他一打开就道这个客户会不会流失,如果是0就不会流失,如果是1可能就会流失,流失会在什么时间段。所以,这里有一个专门的客户流失清单,我们所有的流失信息都在上面。还有一个是新客户的开发,我们按照这个新的信息,找出一些新的客户。

最后一个是关联消费,因为一个用户可能用很多不同的消费,比如说我个人,我既是用固话,我又上网,我还用一些其他的服务,但是随着今后3G的到来和业务重组的话,每一家运营商都可以经营所有的业务,这一点变得非常重要。你要看他用了你多少的服务从中找出关联,制定新的套餐。所以,我觉得马上会面临这样具体的问题。

我们看一下这个界面,一开始我们主要是选择商业问题,因为有公客、商客、个人客户等等,你选择你的商业问题你要做什么,然后你选择你的数据,然后设置一些变的属性,然后你比较你的变量是不是正确,最后你要探索这个变量是怎么分布的,然后你就可以建模,实现参数的设置模型。然后,保存这个结果,这个在IE浏览器上可以显示。然后,你变成TXT、Word都可以。

最后,你把这个参数汇总,这是模型的评估,有各种各样的方式,表格的、图形的都有。



TAG: 商业智能 数据挖掘


 

评分:0

我来说两句