充值信息

月度热点

赞助信息

推荐给好友 上一篇 | 下一篇

要成为企业级软件Hadoop还有很长的路



Apache Hadoop开源软件框架, 支持数据密集型的分布式应用程序, 是热门的。2012 - 2016年之间的市场预期复合年增长率膨胀为55.63%。它不仅是大数据的参与者,还受益于一切即服务的风潮,hadoop即服务在此期间预期会享有更高的复合年增长率,直升95.16%。主导供应商有亚马逊网络服务, IBM, EMC, Cloudera, 但是这一市场还有许多其他供应商, 从MapR技术和Hortonworks到惠普和戴尔。

企业被淹没在数据中,而且数据的数量还在持续增加。要从这个数据洪流中获得价值,任何从非结构化数据到生活事件流,都需要比传统数据仓库更好的解决方案,即Hadoop和NoSQL数据库来管理大数据的工作量。

“Hadoop代表一种范式的转变,使计算和数据联合起来,” MapR CMO Jack Norris在最近的一次采访中说。Hadoop是一个“最重要的,分裂性的企业架构,在我有生之年出现…分裂存储、分裂数据仓库,分裂企业计算堆栈。它在数据增长快于摩尔定律时来到…而对数据以自动化方式进行处理的愿望是呈指数增长的。”

据Norris称,Hadoop改变了数据仓库景观,帮助用户降低数据仓库的成本,由存档数据和卸载ETL处理转向较低成本的Hadoop平台,这个平台比企业数据仓库的成本低50倍。这就能成倍管理增加的交易量。

基于Hadoop的企业软件 (MapR是MapReduce的简称,编程模型用于在由谷歌最初开发的集群上用并行分布式算法处理大型数据集) 的开发者让客户用Hadoop比数据仓库在每TB字节上获得50倍的成本优势。一位客户报告说比ETL(提取、转换和加载)提升了10倍的性能,节约了100倍的成本,他说。

向在线渠道的转移空前地推动了交易数据和点击流数据的数量,推高了数据仓库作为暂存区以便数据进行ETL处理的成本,他说。Hadoop与ETL处理的组合能够创造低成本的多路数据管理中心在点对点的大数据分析生态系统里加速数据处理。

企业也要分析新的和更复杂的高价值的数据类型,比如点击流,非模型的多结构化数据为他们已知的世界添加新的洞察力。Norris说Hadoop的设计目的是处理传统的数据仓库解决方案不能处理的各种数据。它也可以作为大数据一个长期的数据存储以及归档数据仓库数据并被作为一种分析平台来处理分析工作,这些工作在传统数据仓库是不太可能完成的。

减轻数据仓库载荷的重要性是,它不必是非此即彼的情况,他说。这不是否定现有的基础设施,而是一个可以同时部署的平台。MapR相信Hadoop将成为企业最大规模的中心,有最大的数据管理活动和分析,或整合或产生,他说。

Norris为Hadoop描绘了一幅美好的图画, 但当前的热情还没有被转换成广泛的企业接受。据Gartner最新数据称,一个“三分之一的市场是棘手的”——即公司没有计划投资于大数据项目―― 这一情况到2012年都基本没变。唯一重要的转变是说他们不知道公司有大数据计划的受访者在急剧下降: 从2012年的11%到2013年的5%。

我们尚处于Hadoop被作为平台用以代表的早期, Gartner的分析师Merv Adrian说,但在安全性和治理有巨大差距。“我们必须对平台的安全有信心,这是最首要的问题。”

要达到企业级软件的标准,Hadoop还有很长的路要走,据MapR首席应用程序架构师Ted Dunning称。“我们看到,开源软件正从科学展览的阶段(那时使用它的人是非常早期的采用者…)进入企业领域, 且预期正变得非常不同:预期实现的连续性,成熟,[和]的支持水平。在销售给大企业时让他们的企业依赖它时,所有这些要完成,”这位高管说。

也许有些问题困扰着企业, 但市场数据表明,等待不会成为其中之一。另一个调查报告,Hadoop市场——性能监控软件、管理软件、应用软件和打包软件——到2017年将达到139亿美元,其中北美领先。在2012年北美占整体市场的53.85%达8.4亿美元,预计到2017年将达到69.2亿美元。




 

评分:0

我来说两句