大数据技术基础及应用教程(Linux+Hadoop+Spark) 习题答案 | 您所在的位置:网站首页 › hadoop进程作用 › 大数据技术基础及应用教程(Linux+Hadoop+Spark) 习题答案 |
大数据技术基础及应用教程( Linux+Hadoop+Spark )
习题答案
第 1 章练习
一、选择题
1. 大数据的特点有哪些?(多选) ( AB )
A. 处理速度快
B. 多样化
C. 价值密度高
D. 数据冗余度低
2. 下面哪些是大数据的计算模式?(多选) ( ABCD )
A. 流式计算
B. 批处理计算
C. 查询分析计算
D. 图计算
3.Linux 支持多少位硬件?(多选) ( AC )
A.64 位
B.128 位
C.32 位
D.256 位
4.Hadoop 生态系统的主要组成不包括?( B )
A.MapReduce
B.ZooKeeper
C.HDFS 文件系统
D.Y ARN
二、判断题
1. 大数据是指数据量很大的数据集。 (×)
2. Hadoop 是在分布式服务器集群上存储海量数据并运行分布式分析应用的一个开源的 软件框架。 (√)
3. Hadoop 只能运行在由一般商用机器构成的大型集群上。 (×)
4. Hadoop 通过增加集群节点,可以线性地扩展以处理更大的数据集。 (√)
三、简答题
1. 简述大数据技术的特点。
答: Volume (大体量) :即可从数百 TB 到数十数百 PB 、甚至 EB 规模。
Variety (多样性) :即大数据包括各种格式和形态的数据。
Velocity (时效性) :即很多大数据需要在一定的时间限度下得到及时处理。
Veracity (准确性) :即处理的结果要保证一定的准确性。
Value (大价值) :即大数据包含很多深度的价值,大数据分析挖掘和利用带来巨大的商 业价值。
2. 简要介绍几种 Hadoop 系统的组件及其作用。
答:
HDFS : Hadoop 分布式文件系统,具有处理超大数据、流式处理、可以运行在廉价商用 服务器上等优点。 HDFS 在访问应用程序数据时,可以具有很高的吞吐率,因此对于超大数 据集的应用程序而言,选择 HDFS 作为底层数据存储是较好的选择。
HBase :相当于关系型数据库,数据放在文件中,而文件放在 HDFS 中。因此, HBase 是基于 HDFS 的关系型数据库。
MapReduce :是一种编程模型,用于大规模数据集(大于 1TB) 的并行运算,它将复杂 的、运行于大规模集群上的并行计算过程高度抽象到了两个函数—— Map 和 Reduce 上,并 且允许用户在不了解分布式系统底层细节的情况下开发并行应用程序, 并将其运行于廉价的 计算机集群上,从而完成海量数据的处理。
|
CopyRight 2018-2019 实验室设备网 版权所有 |