充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

企业大数据:分析系统,分析和人为参与



我的一个客户要求构建预测分析的建议。当然,我的客户说,数据科学家只需要是熟练的统计人员,能理解分析方案评估的数字并提出报告。毕竟,大数据的目的是分析来自实时数据的意义,甚至可以做出预测,所以肯定数据科学家能做的很少。

虽然大数据分析确实大大扩展我们可以用到的信息,它还改变了数据科学家的目的。在以前,商业智能BI)分片的数据世界中,用户需要确定过去的数据里的趋势。在大数据世界里,数据科学家需要构建分析工作相关的统计模型,该模型的预测让数据科学家必须经常检查(观察)对现实世界的距离,并调整它以尽可能去接近。

我之前解释了什么是大数据,它是如何工作的,你的大数据团队需要的技能,以及它如何影响中小企业以及大型企业的。今天我想扩大它的重要性,但只阐述大数据的方面:机器分析和人工分析的重叠在哪里?

简单回顾

大数据是数据集一个术语,它快速发展,无论是结构化还是非结构化数据,数量巨大,有相当大的价值可以派生。用数量、品种、速度和价值来定性。因此,大数据将世界视为一组相互关联的“东西”,有一定的质量和相关的数据,这些东西和它们的品质都可以进行分析。

而传统的关系数据集可以加载到立方体,商业智能(BI)工具可以对其切片进行分析,大数据集的工作方式不同,需要实时分析甚至预测分析。这意味着大数据可以告诉你现在发生了什么或将来可能会发生什么。传统BI只告诉你过去发生了什么事。这也意味着更多的决策需要自动化,因为洞察力开始适用于更精微处;换句话说一个洞察力可能会影响一个客户,而且只在接下来的几分钟内。

由此,有一种误解,认为分析意味着大数据系统可以提供你需要的所有信息,但实际上你需要考虑人为因素在内。

相关性不等于因果关系

今天的分析是一个迅速发展的领域,但它仍然处于非常早期的阶段:数据科学分析领导将它喻为1950年代的计算。从本质上讲,关键的挑战是,虽然分析可以看大量的数据并显示结果,在许多情况下,结果将是没有意义的。

本质上,有如此多的数据,你可以使用分析来“证明”任何你关心的相关性,意味着没有明确的目标和理解对业真正重要的是什么,你就不太可能创建有效的分析。相反,你将创建一个虚假的安全感。

一个很容易错把相关性当作因果关系的例子是一家我曾密切合作的小型咨询公司所展现的。这家公司有几个员工,公司的创始人主导公司的许多方面,有一天他自豪地向我提到公司IT的安全,因为他们只使用Mac电脑。这一信念的逻辑源于曾经绝大多数的计算机病毒影响Windows电脑而不是Mac或Linux桌面,而后者的粉丝们会取笑Windows用户说他们机器是多么的没有安全感。

然而事实是固有平台的安全只是事实的一部分,作为Windows 电脑主导的市场 (巨大的潜在目标和投资回报率)加上许多用户不当的安全实践(很容易建立一个有效的威胁)意味着病毒制造者只是理性地行动。类似行为看到在今天的移动恶意软件锁定Android设备的比例一样:缺乏安全更新和通过破坏应用程序攻击的相对轻松使这些黑客做出合乎逻辑的选择。

这个故事说明,做出错误的决定是多么容易,尽管有数据似乎证明你是正确的:因此,在更复杂的大数据世界你可以想象数据科学家必须确保他们提出正确的问题有多难。大数据中的人为因素是在一个进行中不断改进的过程来确定什么指标和数据点可能是相关的,并弄清它是什么是我们真正想知道的。

常识的回归?

这是一个问题,因为人类和计算机的工作方式非常不同。人类使用学到的思维过程,这些思维过程随着时间的推移产生“常识”,或者世界是如何工作的观点,从观测到达推断和概括。电脑是通过机器学习被教育有关世界的事情,它是一个数据的统计模型。它的认知方法少了直观,但它是诸如搜索引擎和自动驾驶汽车背后的功能。它很管用,但它是与常识非常不同的智能。

大数据分析:一个强大的工具,但也只是工具

所有这一切意味着我们不应该完全依靠预测分析的力量而忘了问问题。这是今天的世界里一个真正的威胁。电脑在模式识别方面足够好,他们可以做出预测,竞争甚至超越那些训练有素的人类:在现代导航系统采取路线优化能力(例如, Google Now 和 Waze) 或国际象棋程序现在可以经常击败即便是人类最好的选手。

问题是,电脑仍然不能回答“为什么?”的问题,或者从数据中得出适用于其它领域的结论。人类在这方面是伟大的,因为我们真正做的是讲故事,一直是。所以我们不仅需要我们的数据科学家非常严格,以确保我们提出正确的问题进行分析,而且我们也需要高度的创造力,来看待世界和数据,并找出分析它们所显示的故事。

读到大数据的人很自然会想象它是一个完全自动化的过程,但现实是,你不仅需要一个人来理解你的大数据,而且这些数据科学家们需要综合的数据技能和和独特的业务知识。




 

评分:0

我来说两句