大数据之路 |
您所在的位置:网站首页 › 三驾马车指的什么 › 大数据之路 |
Hadoop已经不是一个新技术了,从2003年谷歌的三驾马车(GFS、MapReduce、Bigtable),到2008年成为Apache的顶级项目,一直到现在广泛的使用在大数据领域中,这是在做数据中台建设时必然会接触到的领域。 因此想写一个系列,从产品经理的角度讲一讲Hadoop及其相关的一些生态,帮助非技术背景的同行们能够更快速的理解。 如果从一个产品角度来分析Hadoop,那么可以分成以下几个方面: 背景问题Hadoop最早起源于Nutch,Nutch的设计目标是构建一个大型的全网搜索引擎,在这过程中遇到了数十亿网页的存储和索引问题,而Hadoop正是为了解决海量数据的存储和计算而诞生。 在介绍Hadoop之前,先介绍一个简单的场景,如下图所示,工厂需要从仓库中运输原材料,然后加工成成品输出。 先假设一个最简单的模型:仓库有1280吨原材料,工厂可储备128吨,当前工厂有一台机器,每天能将一吨原材料加工成一个成品,现在需要将1280吨原材料运到工厂并加工成成品。 因此,将该模型做了升级,如下图所示: 1、扩建工厂,每个工厂可存放128吨原材料,总共可存放1280吨。 2、招聘一个团队,团队中有一个leader负责分配任务并记录各个工厂的库存和施工情况,该团队工作机制包括: 1)物流机制:将原材料分成10份,每份128吨,并分别将每份原材料运输至不同工厂存放 2)加工机制:每个工厂分配一个工人进行对原材料进行加工,在其他条件不变的情况下,一天可加工10吨原材料 在这个模型中,可将工厂看做服务器,多个工厂相当于一个服务器集群,可通过扩展服务器的台数来扩展来存储容量;同时,可将这整个管理团队看做Hadoop,其中,物流机制可以看做是HDFS,加工机制可以看做是MapReduce。 从广义上来讲,Hadoop通常指一个更广泛的概念——Hadoop生态圈。 在实际项目中,很少会使用原生Hadoop作为集群,往往使用一些商业版本,比如阿里的MaxCompute,阿里其实最早用的也是Hadoop,之后在此基础上做一些bug修复,特定开发等, 但在这个过程中开源版本也在迭代,这时候就可能会提交不上去,新的特性也拉不下来,所以后来阿里就自己研究了一套ODPS,也就是现在的MaxCompute。 另外比较常见还有Cloudera的CDH,华为的FusionInsight,星环的TDH等,这些公司将开源的Hadoop版本升级改造,并提供一些辅助的可视化工具,比如Cloudera Manager 和Ambari等。 PS:加粗内容在后续文章中展开介绍。 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |