6月份Apache Spark取得了激动人心的好成绩。在圣何塞的Hadoop峰会上,Spark成了常见的话题,以及许多会议演讲的主题。6月15日,IBM宣布计划将大力投资与Spark相关的技术。
这一声明拉开了旧金山Spark峰会的序幕,在里,人们将会看到越来越多的工程师学习Spark,以及越来越多的公司正试验和采用Spark技术。
对Spark投资和采用的良性循环正迅速地推动这一重要技术的成熟和发展,对整个大数据社区都有利。然而,随着人们对Spark技术的越来越关注,产生了一个奇怪而又顽固的误解:Spark在某种程度上是Apache Hadoop的替代品,而非对它的一种补充。这一误解从像“一款旨在打破Hadoop数据的新的软件”以及“公司纷纷抛弃Hadoop大数据技术”等标题中都可以看到。
作为一个长期以来的大数据实践者,最先提倡雅虎投资Hadoop,现在是一家为企业提供大数据服务的公司CEO,我想就这一误解发表自己的观点,进行一些澄清。
Spark 和 Hadoop通力合作。
Hadoop正日益成为公司处理大数据的企业平台之选。Spark则是一种运行在Hadoop之上的内存中处理解决方案。Hadoop最大的用户——包括易趣和雅虎,都在他们的Hadoop集群中运行Spark。Cloudera 和 Hortonworks在他们的Hadoop包中也加入了Spark。我们的客户Altiscale自我们最开始推出时就一直使用着运行在Hadoop之上的Spark。
将Spark置于Hadoop的对立面,就像说你的新电动车非常酷,不需要电一样。但事实上,电动车将推动对电的更多需求。
为什么会产生这种混淆?现在的Hadoop主要由两部分构成。第一部分是叫做Hadoop分布式文件系统(HDFS)的大型存储系统,该系统能低成本、高效地存储数据,且能对大数据的容量、多样性和速度进行优化。第二部分是一个叫做YARN的计算引擎,该引擎能在HDFS存储的数据上运行大量并行程序。
YARN能托管任意数量的程序框架。最初的框架是谷歌发明的MapReduce,用来帮助处理大量的网络抓取数据。Spark是另一种这样的框架,正如还有另一个新的叫Tez的框架。当人们谈论“Spark”与“Hadoop”的对决时,他们真正的意思是现在的程序员更喜欢用Spark,而不是之前的MapReduce框架。
然而,MapReduce不应和Hadoop等同起来。MapReduce只是处理Hadoop集群中数据的众多方式之一,Spark可以作为替代品来用。更广泛地说,商业分析师们——日益壮大的大数据实践者,会避免使用这两种专门供程序员使用的低端框架。相反地,他们使用高级语言比如SQL来使Hadoop更加便于使用。
在过去四年,以Hadoop为基础的大数据技术经历了前所未有的创新,从批处理SQL到交互操作,从一个框架(MapReduce)到多个框架(如:MapReduce,Spark等)。
我们也见证了HDFS性能和安全性上的巨大改进,以及在这些技术上涌现的众多工具——例如Datameer, H20 和 Tableau,这些工具使得所有这些大数据基础设施的使用范围更广阔,数据科学家和企业用户都能使用。
Spark并不是要取代Hadoop。相反,Hadoop是一个使Spark成为可能的基础。随着各个组织寻求最广阔、最强劲的平台来将其数据资产转变成切实可行的商业远见,相信两个技术都将会被越来越多地采用。
Comment