大数据之路

您所在的位置：网站首页 › 三驾马车指的什么 › 大数据之路

大数据之路

2024-06-26 12:55:16| 来源: 网络整理| 查看: 265

Hadoop已经不是一个新技术了，从2003年谷歌的三驾马车（GFS、MapReduce、Bigtable），到2008年成为Apache的顶级项目，一直到现在广泛的使用在大数据领域中，这是在做数据中台建设时必然会接触到的领域。

因此想写一个系列，从产品经理的角度讲一讲Hadoop及其相关的一些生态，帮助非技术背景的同行们能够更快速的理解。

如果从一个产品角度来分析Hadoop，那么可以分成以下几个方面：

背景问题

Hadoop最早起源于Nutch，Nutch的设计目标是构建一个大型的全网搜索引擎，在这过程中遇到了数十亿网页的存储和索引问题，而Hadoop正是为了解决海量数据的存储和计算而诞生。在这里插入图片描述

Hadoop是什么？

在介绍Hadoop之前，先介绍一个简单的场景，如下图所示，工厂需要从仓库中运输原材料，然后加工成成品输出。先假设一个最简单的模型：仓库有1280吨原材料，工厂可储备128吨，当前工厂有一台机器，每天能将一吨原材料加工成一个成品，现在需要将1280吨原材料运到工厂并加工成成品。在这里插入图片描述在上述模型中需要解决以下的两个问题： 1、工厂存储空间小的问题：仓库有1280吨，而工厂只能存储128吨，如何解决大量原材料存储的问题？ 2、工厂加工效率低的问题：工厂一天只能加工1吨原材料，如何提高加工的效率?

因此，将该模型做了升级，如下图所示： 1、扩建工厂，每个工厂可存放128吨原材料，总共可存放1280吨。 2、招聘一个团队，团队中有一个leader负责分配任务并记录各个工厂的库存和施工情况，该团队工作机制包括： 1）物流机制：将原材料分成10份，每份128吨，并分别将每份原材料运输至不同工厂存放 2）加工机制：每个工厂分配一个工人进行对原材料进行加工，在其他条件不变的情况下，一天可加工10吨原材料在这里插入图片描述言归正传，Hadoop是一个软件框架，它利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理。Hadoop核心组件包括： 1、HDFS（分布式文件系统）：将数据切块、存储，并记录切块的数据分别存放在哪些服务器上。 2、MapReduce（分布式运算编程框架）：将待处理的大数据划分为很多个数据块，每个数据块对应于一个计算任务（Task），并自动调度计算节点来处理相应的数据块。

在这个模型中，可将工厂看做服务器，多个工厂相当于一个服务器集群，可通过扩展服务器的台数来扩展来存储容量；同时，可将这整个管理团队看做Hadoop，其中，物流机制可以看做是HDFS，加工机制可以看做是MapReduce。

从广义上来讲，Hadoop通常指一个更广泛的概念——Hadoop生态圈。在这里插入图片描述

Hadoop厂商

在实际项目中，很少会使用原生Hadoop作为集群，往往使用一些商业版本，比如阿里的MaxCompute，阿里其实最早用的也是Hadoop，之后在此基础上做一些bug修复，特定开发等，但在这个过程中开源版本也在迭代，这时候就可能会提交不上去，新的特性也拉不下来，所以后来阿里就自己研究了一套ODPS，也就是现在的MaxCompute。

另外比较常见还有Cloudera的CDH，华为的FusionInsight，星环的TDH等，这些公司将开源的Hadoop版本升级改造，并提供一些辅助的可视化工具，比如Cloudera Manager 和Ambari等。

PS：加粗内容在后续文章中展开介绍。

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

大数据之路

大数据之路

今日新闻

点击排行

推荐新闻

图片新闻

专题文章