充值信息

赞助信息

推荐给好友 上一篇 | 下一篇

关于大数据CIO应该问的四个问题



难以相信Apache的Hadoop 成立七年多了。 其最初的重点是在互联网上用简单、可扩展和经济的方式存储和处理数据。那些在开源技术来说很简单的开始,在2013年却成为下一代大数据架构的最中心。

多年来, Hadoop从几个大的网络公司 (包括雅虎) 技术领域持续成熟为一种横跨主流企业进入多数CIO的议程。“企业Hadoop” 的崛起为企业刷新了从数据平台受益的机会,这种平台提供了技术、经济和商业惊人的综合利益。

主流企业的CIO在思考大数据和如何加入Hadoop方面通常问四个问题。

大数据和Hadoop确实名声在外,然而,这一切究竟意味着什么?

Hadoop, 作为大数据时代事实上的技术,本质上是基于两个事情。

首先,它是关于效率。Hadoop提供了一种现代平台存储和处理数据,使企业利用现有的投资和技能的方式,从所有的数据获得前所未有的具成本效益的价值。

第二,它是关于机会。因为Hadoop可以在技术和经济上得以扩展,它可以使用新类型的数据构建分析应用程序, 能提升20%生产力或为今天有远见的企业发现新的收入来源。

从效率的角度来看,Hadoop作为一种数据平台,运行于低价的商用硬件上,无需专门的、昂贵的高端RDBMS或HPC系统硬件。此外, Hadoop不仅释放出新的数据存储和处理能力, 还为业务提供机会评估他们的整体数据架构, 制定出最佳的方法, 集中他们的Hadoop系统和传统应用程序的数据库和数据仓库为它们最适合的工作服务。此外,还有至关重要的企业需求,如管理、监控、数据安全性和高可用性,Hortonworks分布的Hadoop(即Hortonworks数据平台)组合确保企业平台的可行性。

从机会的角度来看, Hadoop在不断增加的新生成的和现有的数据源上开发了提炼和探索巨大的数据集的能力。用例范围从众所周知的网络点击流分析和社交情绪数据到正在以惊人的速度生产的机器、传感器和地理定位数据的新兴高级分析。使用Hadoop, 企业现在有机会超越简单的数据分析并拥有能够在交易、交互之间混合数据的能力,并观察以便业务结果在交易之前就能被预测。

翻新旧的数据中心太难,实施的现实情况会如何?

许多体验过Hadoop的企业说,他们因为Hadoop极大的可扩展性、探索性分析,低成本,支持多结构化数据而采用它。因此, 你可能会从基于这些驱动和Hadoop能够的目标分析应用程序制作一个业务案例开始。

虽然你的第一个集群可能独立开始工作,你也应该在大数据架构内思考Hadoop,使得商业智能、数据仓库和分析接优先顺序进行整合。

此外,谨防炒作。有很多人说到企业数据仓库的终结。尽管标题很吸引人,现实并非如此极端。从一开始, 我们对Hortonworks的愿景就锁定在下一代数据架构能无缝地整合现有的和新的数据系统 (跨越应用程序数据库、数据仓库、Hadoop和其他), 在现有的投资规模下能释放新的商业价值。

为此,我们与诸如微软、Teradata, Rackspace和其他一些合作伙伴专注于创造更深入的战略整合,以明确的目标将现有数据中心的技术与Hadoop整合,只要它管用。虽然仍有更多的工作要做, 我们在堆栈上下整合Hadoop方面已经取得了很大的进步:

分析和商业智能工具,如Excel, Tableau ,MicroStrategy、Business Objects和SAS

来自供应商Teradata, Microsoft, Informatica, IBM, 和 Talend的数据系统和数据整合工具

管理平台包括微软系统中心和Active Directory以及 Teradata Viewpoint和

基础设施平台比如Windows, Linux, VMware, Azure,亚马逊网络服务, Rackspace开放云和OpenStack

通过专注于努力将Hadoop与常用平台和工具的整合,我们的目的是加速Hadoop在主流企业市场的成功采用。

大幅度提升团队的技能听起来也很费力,我怎么应付?

虽然Hadoop是一个新的平台,它为开发人员、数据工作者和系统管理员提供了熟悉的方法来挖掘和利用其功能。例如, 熟悉Java、.NET和如Python或Pig脚本语言的开发人员可以用SDKs and APIs工具用于Hadoop。熟悉SQL数据工作者可以利用Hive(Hadoop的数据仓库系统)来查询和用一个熟悉的方式与Hadoop数据交互。而负责操作Hadoop集群的系统管理员有一系列的选择包括使用Apache Ambari Web Console直接与Apache Ambari整合管理和监控REST APIs, 或预先整合和在Teradata Viewpoint, Microsoft System Center和其他第3方管理解决方案有相似的体验。

Hadoop, 像任何新的平台一样, 有一个学习过程。因此开发人员、数据工作者和系统管理员应该在培训上投资,这样他们才能更多地获得Hadoop的服务。他们也应该在这种学习体验中怀着自信, 他们正在获得的重要技能将使他们对于团队和公司来说更有价值。

听起来似乎明年就要开始做它。实施它的适当时间是什么时候?

据Gartner的Merv Adrian在2013年6月Hadoop峰会的主题发言上说, 30%的企业已经在使用大数据,还有34%的在接下来12 - 24个月内计划实现。

从Hadoop的角度来看,我们对客户的体验是几乎所有的全球1000强企业已经部署或有明确的计划部署Hadoop。此外,大多数主流企业正在实施大数据战略。我们发现,许多企业已经成功使用了Hadoop通过部署针对概念验证的设计来寻找并证明业务机会。一旦部署了最初的用例,在其他旨在推动进一步的竞争优势或操作效率的用例就竞相开始了。

我们的建议:鉴于Hadoop的开源性质,重点在概念验证,能低门槛地进入和加快计划的成功。理解和释放所有数据的价值是大数据项目成功的关键因素,并且这个过程越早开始越好。




 

评分:0

我来说两句