充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

以为自己很懂 Big Data ,但其实你可能正犯下一个大错



Big data是近来很流行的名词,生活中离不开网络,庞大的用户数据利用系统不断的在建立更新,但现在却蔓延着一种现象:不论对于企业家、科学家、政府以及媒体来说,Big data是一个模糊的词汇

五年前,Google研究团队在世界级的科学期刊中,宣布了一个重大突破性的成就-Nature,不需要一个个科学检验的结果,就能够追踪流感在美国的扩散范围。

不仅如此,他们比美国疾病控制及预防中心CDCCenters for Disease Control and Prevention)的运作速度要来的快,Google的追踪只有延迟仅仅一天,相较于CDC要收集以医生手术的报告为基础的图,这样浩大工程而延迟了一周甚至更久的时间,Google显然略胜一筹;藉由找到人们在网络上搜寻的内容与他们是否有流感症状的关联性,这一追踪方式的突破,Google当然更快。

·Google Flu Trends」的成功象征着商业、科技、科学中流行的新趋势:Big Data

Google Flu Trends」不只快速、精准、便宜,Google的工程师们不会困扰着发展假说 —— 关于搜寻怎么样的名词,如「流感症状」或「离我最近的药房」等,可能和疾病本身的传染息息相关。Google团队只拿取了5,000万个搜寻关键词,然后让算法自己跑自己运作。

Google Flu Trends」的成功象征着近来在各领域 —— 商业、科技、科学中流行的新趋势:Big Data,从Google的案例中科学学到了什么?

当这么多流行词汇的产生,Big data通常在业务想要卖东西的时候乱抛出的、一个模糊的名词,有些纯粹强调data规模的庞大,举例来说,大型强子对撞机( Large Hadron Collider,简称LHC)的计算机能储存一年15个字节的数据,相当于你存你喜爱的音乐15,000年的空间。

但之所以Big data能够引起许多公司的兴趣是名称的缘故 —— 我们称它为「Found Data」,信用卡支付系统、网站搜索引擎的数字疲乏、行动装置检测最近的手机基地台,这样的数据库比起LHC的数据量要来的更大,Facebook就是如此。

值得一提的是,相对于它们数据库的规模来说搜集成本是相当低的,他们是从各个零散的目的中搜集而成的杂乱数据点,以及他们能更根据实况做更新的动作。当我们的通讯、休闲以及商业活动转移到网络,加上网络不只在我们的手机,包括我们的车甚至眼镜,生活是可以被记录、被量化的,这些在十几年前都是难以想象的事情。

对于Big DataCheerleaders有几个有趣的说法,每一个都实实在在地反映了Google Flu Trends的成功:

1. Data分析能够创造神奇般准确的结果。

2.每一个个Data都能不被遗漏,使得旧有的统计抽样方法过时。

2.不用再烦恼Data间的因果关系,因为统计的相关性会告诉我们我们想要的信息,科学的或是统计的模型不再需要,因为套一句2008年在Wired发表的论文《 The End of Theory 》里的话:「有了足够的数据,数字会自己说话」。

然而,以上说的都是Google Flu Trends带来Big data的震撼,但是先等一下,这么想可能就过于乐观了。其实并不是所有人都看好它,最糟的是,根据剑桥大学教授David Spiegelhalter的说法提及,数据可以是完全没有意义

Found data巩固了新网络经济,如GoogleFacebookAmazon等,透过挖掘数据,来寻求新的方法来理解我们的生活。

顾问业则使用data本质来明白big data的潜力,近来从McKinsey Global Institute的报告中,估计美国健康照护系统能够一年节省3,000亿美金,也就是每个美国人一年可以节省1,000美元-只要从诊所纪录追踪到医疗保险交易,再扩及慢跑鞋各个面向搜集而来的资料,透过更好的资料整合和分析,要省下那么庞大的数额,绝不是空谈。

·如果我们忽略那些熟悉的统计概念,Big Data注定只会带来失望

然而即使Big Data给了科学家、企业家、政府这么多的承诺,如果我们忽略那些熟悉的统计课程,big data注定只会带来失望。

然而,看似利用Big Data而有突破性成功的 Google Flu Trends,当速度缓慢又稳定的数据从CDC送达时,这些数据显示Google对于流感般的疾病预测是过度夸大了。Google可能没有查觉到从他们的模型中存在着一个很大的问题点:什么样的搜寻关键词能够和流感的扩散有关?Google的工程师并没有试着理解其因果关系,仅利用寻找数据里的统计模式,他们在乎关联性更胜于因果性,这是一般的Big Data分析,要理解因果关系远远难于了解关联性

这就是为什么,根据Viktor Mayer-SchönbergerKenneth Cukie r共同著作的书《Big Data》中写道:不能抛弃因果关系,只是它被击垮的基底正是它内涵的意义来源。

仅仅是以理论分析相关性难免是脆弱的,如果你不知道相关性的背后是什么,你就不知道什么可能会造成相关性间的破灭。

其中一个Flu Trends失败的解释是201212月时这些新闻中充斥着流感可怕的故事,而这些故事可能会引起健康的人们在网络上搜寻相关信息;另一个可能的解释是,Google自身拥有的搜寻算法可说是「朝夕令改」,是不断的在转变的,当人们进入医疗症状时它开始自动地建议诊断情形。所以说,要相信Google演算出的相关性是正确的吗?这很难说。

 Data更庞大、更快更便宜,但是不能假装没有这些陷阱

统计学家过去花了200年的时间来理解,当我们试图用data来理解世界时,有什么陷阱已经布好而等着我们去跳,近来Data更加的庞大、更快又更便宜,但是我们不能假装没有这些陷阱,而说一切都很安全。

1936年时,共和党的Alfred Landon代表参选来与现任总统 Franklin Delano Roosevelt对抗,许多权威性的杂志、具有影响力的周刊The Literary Digest,扛起预测选战结果的责任。怀抱着雄心壮志,为达到搜集大样本的目的,它采用邮寄问卷,目标寄送到1,000万名民众,四分之一的选民。如洪水般的大量邮件回复,Digest似乎乐在其中,在当时八月它报导指出,下周,从1,000万个样本民调里,第一轮答案会开始计票,经过三次的检查,验证,五次的跨分类及加总。

在制表惊人的240万个回复,花了超过两个月的时间, Literary Digest宣布它的结果:Landon将会以55个百分点胜过41个百分点的Franklin,其余的则是投给第三个候选人。

然而,实际选举的结果真的是这样吗?

天壤之别,这次选举带来很不一样的结果:Roosevelt以压倒性的61个百分点大胜Landon37个百分点,而让The Literary Digest更苦恼的是,由民调先驱George Gallup所进行的更小的样本调查反而更接近最终选战的结果,预测Roosevelt将会稳稳地赢选战,这代表了,Gallup先生知道某些Literary Digest所不知道的事,这个案例告诉了我们一件事:说到Data,规模大小称不上一回事

民调大致上是基于选民人口为样本,这代表说,民调机构必须要处理两个问题:抽样错误与抽样误差。

抽样错误反映着一个风险:随机的选取样本意见不代表能够真实反映大多数人的意见,在《margin of error》中提出民调反映着风险和更大的样本存在更小的偏差幅度,1,000个访谈者对于许多调查目的来说,已经是足够的样本,而Gallup先生表示他访问了3,000名访谈者。

难道说,3000个访谈者会优于240万个邮寄问卷的结果吗?这个答案是,抽样错误会产生更危险的朋友:抽样偏差,抽样错误是当随机选定样本却不能靠着偶然来反映潜在的大众,抽样误差是当样本不是随机取样时所产生的问题。而Gallup先生在寻找不偏样本时花了好一番功夫,因为他知道这比起所谓的大样本来的更加重要。

寻求更大数据量的The Literary Digest,摸索偏差样本的问题在哪,原来,它所寄出的邮件名单是同时从车辆登记及电话簿中编纂而成的名单,至少在1936年的那时,是非常不成比例的;另外,在所有邮寄回复的240万个问卷结果中,Landon的支持者更乐于将他们的结果交还给The Literary Digest,这两个偏差已足够注定让Literary Digest的调查结果失败了。

由此可知,big data的热潮又再次威胁着The Literary Digest,因为数据库太过的庞杂,很难去知道在data里潜伏着什么样的偏差,有的分析师似乎已经决定抽样问题不足以担心了,而事实上的确如此。 Oxfords Internet InstituteViktor Mayer-Schönberger,为《 Big Data 》的共同作者说,它喜欢定义Big Data数据库是「N=All」,也就是说我们不再需要抽样,但背后却拥有整个人口,他们能够数选票,所有的选票,而且当「N=All」的确不是样本偏差的问题,因为样本包含了所有人。

但是「N=All」对于大部分的found data来说是我们考虑的最佳叙述吗?可能不是。

·Big Data是建立在旧的统计理论上,而不是去忽略它

给一个关于Twitter的例子,就原则上而言,在Twitter中能够记录并分析每则留言并对社会情绪给个结论,这是有可能的,然而当我们看着所有的tweets时,其实,Twitte r的使用者不代表全体。

这肯定存在着一个关于谁、以及遗漏了什么的问题,特别是在杂乱的found data档案库,资料分析师及《 Number sense 》的作者Kaiser Fung告诫着「我们拥有所有」这件事情,「N=All」只是一个Data假设而不是一个事实。

为了要使用Big data来找寻我们要的答案,统计方法必须要向前迈进更加进步才行,「现在就像是狂野西部一般」,UCL的教授Patrick Wolfe说,「聪明且领导的人将会从这些数据集中扭曲和转向并使用各种工具来让这一切变得有意义,这是很疯狂的事,但是我们正在盲目的前进中」。

统计学家卖力的想发展出一套新的方法来抓住Big Data发展的机会,新方法是重要的然而他们所运用的概念是建立在旧的统计理论上,而不是试图去忽略它。


回想Big Data的信念,如果我们只忽略错误的面向,可能会造成准确度难以捉摸。如果我们在稳定的环境下、世界不会改变的情况下、又或是我们自己希望去改变它的情况下来做预测,因果性已经「被击垮它的基底」会是好的。对于「N=All」的信念在多数的状况下被看成不再是真实的,因此抽样偏差就不再是一回事。

关于「有了足够的数据量,数字就会自己说话」这点来说,这似乎是对不实的模式超出了真实发现的数据集本身一个绝望的想法,也就是说,当模式是假的、是错误的,数字本身是没办法传递讯息的。

Big Data的时代已经到来,但「Big insights」 还没。现今的挑战是要解决新的问题和得出新的答案,前提是,在前所未见的规模,也就是庞大的资料量底下,不要犯相同传统的统计错误。

 


 

评分:0

我来说两句