【大数据技术】Hadoop真的已经老了吗? 您所在的位置:网站首页 hadoop过时了吗 【大数据技术】Hadoop真的已经老了吗?

【大数据技术】Hadoop真的已经老了吗?

#【大数据技术】Hadoop真的已经老了吗?| 来源: 网络整理| 查看: 265

原标题:【大数据技术】Hadoop真的已经老了吗?

Hadoop的历史

Hadoop 最早诞生于 2006 年,并在 2008 年成为 Apache 顶级项目。虽然在诞生之初,只有国内外几家巨头尝试使用 Hadoop 技术,但没过多久,Hadoop 就成为了互联网行业大数据计算的标准配置,Hadoop 也快速成为 Apache 软件基金会的金牌项目之一。不仅如此,它还孕育了包括 HBase、Hive、ZooKeeper 等一系列知名 Apache 顶级项目,而这些项目一开始都是以 Apache Hadoop 子项目的形式在社区运作并为开发者熟知的。  至今,Hadoop 已经走过了 12 个年头,这对于任何软件来说生命周期都不可谓不长。而从 2016 年开始,国内外就开始出现唱衰 Hadoop 的声音。虽然对于国内外很多企业来说,Hadoop 依然是大数据计算不可缺少的配置,但对于 Hadoop 未来的发展,很多人都并不看好,“谈不上会有好的发展”。Hadoop 背后最大的平台提供商 Hortonworks 也开始往以云计算为中心的世界靠拢。

去年 9 月,Gartner 将 Hadoop 发行版从数据管理的技术成熟度曲线中淘汰出局,原因是由于整个 Hadoop 堆栈的复杂性和可用性问题,许多组织已经开始重新考虑其在信息基础架构中的角色。而今年 KDnuggets 发布的数据科学和机器学习工具调查报告则显示 Hadoop 的使用率也下降了,这让“Hadoop 老矣”的说法又再度流传起来。

2018 年数据科学和机器学习工具调查报告显示 Hadoop 使用率下降 35%  在这个时候,为什么腾讯要花费大力气去主导 Hadoop 开源版本的发布?  负责主导本次开源版本发布的腾讯云专家研究员堵俊平告诉 AI 前线,真正“老矣”的是 Hadoop 商业发行版而非 Hadoop 技术本身, 不论在国内还是国外,Hadoop 技术都保持着大数据平台的核心和事实标准地位。需要变革的是 Hadoop 技术的使用和发行方式, 未来越来越多的用户从使用线下 Hadoop 发行版向云上的数据湖(对象存储 +Hadoop)迁移可能会成为一种趋势。

腾讯选用 Hadoop:兼顾平台稳定性和技术先进性

腾讯的大数据平台有不少为自身特殊场景优化甚至重新自研的产品和组件,但有相当大的一部分是基于开源 Hadoop 生态组件构建的。  目前腾讯的大数据平台用到了非常多的 Hadoop 生态组件。以腾讯云上开放的弹性 MapReduce 服务为例,腾讯提供了 Hadoop、HBase、Spark、Hive、Presto、Storm、Flink、Sqoop 等组件服务。不同组件也发挥了不同的用处:数据存储和计算资源调度由 Hadoop 来实现,数据的导入可以用 Sqoop,HBase 提供了 NoSQL 数据库服务,离线数据处理由 MapReduce、Spark、Hive 等完成,流式数据处理则由 Storm、Spark Streaming 以及 Flink 来提供等等。  堵俊平表示,对于 Hadoop 生态的各类组件的选型,腾讯的总体原则是兼顾平台稳定性和技术先进性。一方面,需要理解每个组件所适用的场景以及它们的能力边界,另一方面,从测试和运维实践来看,要了解每个组件的稳定程度和运维复杂度。以基于 Hadoop 的数仓组件为例,新版的 Hive 增加了 LLAP 组件来提升交互式查询的性能和速度,但从当前运行的实际效果来看并不稳定,所以腾讯暂缓把这个组件引入生产系统,Hive 更多服务于离线计算的场景,而交互式查询由更为稳定的 SparkSQL 和 Presto 来提供。  腾讯并非个例,在国内外很多企业的大数据平台中,Hadoop 生态的各类组件都占了相当大的比重。谁都离不开它,但可能应用太普遍,Hadoop 受到的关注反而变少了。作为 Hadoop 的 PMC,堵俊平表示,Hadoop 作为大数据平台的核心和事实标准地位,在国内外并没有太大的区别。不过在各个行业,Hadoop 应用的成熟度却不尽相同。举例来说,Hadoop 在互联网公司应用的最早也最为成熟;其次是金融行业,Hadoop 大数据平台落地的成功案例很多,也相对比较成熟。当前 Hadoop 大数据平台应用的热点是在政务和安防领域以及 IOT 工业互联网平台,这些新的热点带来新的需求也会促使 Hadoop 技术和生态继续向前进化。

Hadoop 技术未老,但使用和发行方式需要变革

对于 Gartner 将 Hadoop 从技术成熟度曲线中淘汰出局,堵俊平指出,Gartner 的报告是针对 Hadoop 商业发行版而非 Hadoop 技术本身。  报告中所提到的 Hadoop 发行版的问题:比如发行版的复杂度高以及包含很多非必要性组件,从用户的反馈来看,是真实存在的。很多商业发行版,例如 CDH 或者 HDP,都包含了洋洋洒洒十几种甚至几十种组件给用户使用,在提供灵活性的同时,也给用户带来了很多使用和运维上的烦恼。更严重的是,这个问题从近几年的观察来看,不但没有减轻且有愈演愈烈的趋势。所以,Hadoop 技术的使用和发行的方式需要变革,未来越来越多的用户从使用线下的 Hadoop 发行版向云上的数据湖(对象存储 +Hadoop)迁移可能会成为一种趋势。  堵俊平坦言,Hadoop 生态确实存在一些不足。Hadoop 的生态系统非常复杂,每个组件都是独立的模块,由单独的开源社区开发和发布,我们可以称之为松耦合。这种松耦合的开发方式,好处是灵活、适应面广、开发周期可控,缺点是组件之间配合的成熟度低、版本冲突严重、集成测试困难。这也给用户的使用带来了困难,因为一个场景中需要涉及到很多组件的配置工作。  虽然流计算对于大数据处理来说越来越重要,但不支持流计算却不会成为 Hadoop 的致命伤。虽然 Hadoop 自身不提供流计算服务,不过主要的流计算组件,如 Storm、Spark Streaming 以及 Flink 本身就属于 Hadoop 生态系统的一部分,因此并不构成太大的问题。返回搜狐,查看更多

责任编辑:



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有