Step1.
就是商业问题的理解了,那么如何更好的理解“老大”提出的商业问题困惑呢?我觉得思维导图倒是个不错的选择,当然自己要想更好的理解“老大”的意思还需要进一步的沟通,商业问题的理解关系到这个挖掘项目的价值,甚至成败,所以在这块大家要显得“外向”一些,多交流、多沟通、多了解这个商业问题背后的东东;
step2.
接下来就是需要提取的字段,也就是数据挖掘的宽表,这点就要和企业的DBA人员多多交流,看数据库中各个维度的表格都有什么字段,主要关联的主键有那些,那么如何选取字段呢?这就需要自己把自己与“老大”共同讨论的思维导图拿出来看看,这样就有提取那些字段的感觉了,这部分大多数的提取是自己对商业问题的感觉或者一些前辈的经验;
Step3
数据的ETL,这部分一般的时间占数据挖掘项目的70%左右,为什么数据的ETL如此重要呢?万丈高楼平地起,如果连地基都是“豆腐渣工程”的话,那么再华丽的楼房也没人愿意掏腰包;嘿嘿,开个玩笑;数据的ETL主要是一些异常值、空值(miss值)、错误数值的处理,这部分一般需要根据数据自身的分布、简单的统计知识、该字段体现的业务特点、自己的经验进行的,也就是这一部分的处理主要是统计知识+项目经验+业务特点;