您所在的位置：网站首页 › hadoop三大核心组件任选其一类型 › 01

01

2023-06-11 08:14| 来源: 网络整理| 查看: 265

1 产品概述

1.1 产生背景

1.2 架构

1.3 相关概念

1.4 应用场景

2 部署前说明

2.1 版本说明

2.2 大数据平台软件包

2.3 操作系统要求

2.4 网络要求

2.5 浏览器要求

2.6 部署流程

3 安装DataEngine软件包

3.1 安装前必读

3.2 大数据平台部署前准备

3.2.1 部署CloudOS Plat

3.2.2 部署CloudOS IaaS

3.3 部署大数据平台DataEngine

3.3.1 上传DataEngine软件包

3.3.2 部署DataEngine软件包

4 创建大数据集群

4.1 创建前必读

4.2 创建前规划内容

4.2.1 系统内置的组件部署规则

4.3 大数据集群主机节点的配置要求

4.3.1 集群部署在虚拟机上时硬件要求

4.3.2 集群部署在裸金属上时硬件要求

4.4 新建集群前准备

4.4.1 准备裸金属资源

4.4.2 准备虚拟机资源

4.5 新建集群

4.5.1 新建Hadoop集群

4.5.2 新建Elasticsearch集群

4.5.3 新建Solr集群

4.5.4 新建Kafka集群

4.5.5 新建Redis集群

4.6 管理集群

5 DataEngine相关配置

5.1 配置License

5.1.1 License远程授权操作

5.1.2 配置大数据集群的License

5.2 添加浏览器安全证书

6 集群创建后检查

6.1 集群巡检

6.2 检查主机

6.2.1 主机运行状态检查

6.3 检查组件

6.3.1 组件存储路径检查

6.3.2 组件运行状态检查

6.3.3 组件检查

7 关于集群配置的说明

7.1 访问管理

7.2 禁用/启用root权限

7.3 配置组件快速链接

7.4 日志管理

7.5 安全管理

7.5.1 开启Kerberos

7.5.2 开启审计日志

7.5.3 开启权限和密钥管理

7.6 租户管理

8 卸载

8.1 删除集群

8.2 卸载集群中组件或进程

8.2.1 删除组件

8.2.2 删除进程

8.3 卸载数据工厂

9 常见问题解答

1 产品概述 1.1 产生背景

随着DT时代的到来，企业数据规模不断增长，数据类型也变得复杂多样，传统数据库技术已无法满足企业海量多样化数据的有效存储、快速读取以及分析挖掘的需求，急需一套专业化的大数据解决方案来点石成金，大数据平台在此背景下应运而生。

大数据平台深度定制Hadoop生态系统，提供向导式的快速部署能力、方便易用的监控告警能力以及多层级高可靠的数据安全能力，是全链路的数据接入、存储、计算、分析、管理与开发的新一代大数据平台，助力企业业务快速创新，完成ICT转型。

1.2 架构

大数据平台依赖CloudOS云操作系统（本文中简称“云平台”）。大数据平台依托云操作系统基础平台，提供大数据平台运行的服务支撑能力，包括控制台管理框架、统一用户组织管理、工单流程管理、资源池管理等。大数据平台服务支持部署在裸金属和虚拟机上，用户可以根据实际业务场景需求灵活选择。

大数据平台架构如图1-1所示，说明如下：

· 系统管理：系统管理提供数据平台运行的支撑能力，包括统一用户管理、流程管理、操作日志、软件授权、系统升级等。大数据平台支持部署在物理机或虚拟机上，用户可以根据实际业务场景需求灵活选择。

· 大数据集群：提供丰富的大数据组件即服务，包括但不限于分布式文件系统、NoSQL数据库服务、内存数据库服务、离线计算、流式计算、内存计算、SQL on Hadoop等服务，同时还提供自研统一SQL服务，可兼容标准SQL，对外提供统一的数据查询/分析服务，提升平台的整体易用性。

· 管理中心：提供可视化安装部署、监控告警、主机扩容、大数据组件、日志统一等管理能力，大幅提升大数据平台运维效率。

· 安全中心：提供基于Kerberos安全认证体系以及基于角色的用户权限管理体系。对用户身份进行认证，拒绝非法用户访问，恶意用户“进不来”；对用户操作行为进行不同维度的审计，非法用户“逃不掉”；通过角色绑定对用户授予访问不同组件数据的权限，数据“拿不走”；将密钥的权限与用户绑定，对数据进行透明加密，数据“看不懂”。

· 数据工厂：提供一站式可视化的数据开发环境，全托管的数据处理流程调度，实现一整套完整的数据集成、数据表及文件管理、数据处理脚本程序开发、拖拽式工作流及调度、作业状态监控运维等全生命周期数据开发服务。

图1-1 大数据平台架构图

1.3 相关概念

表1-1 大数据平台相关术语

术语

说明

集群

通过大数据平台部署/管理的大数据集群，提供分布式存储计算能力

集群模式

独立模式

每个租户独立使用一套集群，网络和资源互相隔离

租户模式

多个租户之间共享一套集群，共享网络和集群资源，但每个租户仅可访问自己对应的资源（资源严格隔离）

集群存储类型

HDFS

存储类型选择HDFS时，表示将HDFS数据存储在HDFS组件的DataNode中，即属于存储和计算未分离情况

对象存储

存储类型选择对象存储时，表示将HDFS数据存储在对象存储内，即属于存储和计算分离情况

组件

大数据集群中的应用组件，对外提供某种业务功能，例如：HDFS、YARN、Spark等

进程

进程是组件的组成部分，每个组件由一个或多个进程组成，例如：HDFS的NameNode或DataNode等

节点实例

组件中的不同进程部署在不同节点上，将节点划分为不同的实例

专有节点实例

专门用来部署某个组件的节点称为专有节点实例

【说明】根据实际需求，此节点上也可选择部署其他组件

租户

从租户集群中申请存储、计算等组件资源，租户之间通过权限进行隔离

密钥

通过密钥可以存储和操作加密数据

密钥授权

用户经过指定密钥的授权之后，才可以访问通过该密钥加密的数据

1.4 应用场景

· 多数据源的快速接入：通过简易的工作流管理界面，可轻松将存储在文件、关系型数据库、实时数据流（如设备syslog信息）等各类数据源中的海量结构化数据、非结构化数据、半结构化数据采集至大数据平台中。

· 海量数据的存储：对结构化、半结构化和非结构化数据提供低成本存储，通过先进的Ensure Code技术实现数据低冗余、高容错，并通过集群高可用和多副本机制，避免单节点故障，保证节点损坏时数据不丢失。此外平台还具有高可扩展性，用户可以增加集群节点数量，横向扩展数据存储和计算能力。

· 多计算框架融合：融合了稳定的离线计算MapReduce、高效的内存计算Spark以及实时的流计算Flink等多种计算框架，为客户提供灵活的计算支持能力，全面支持各类计算业务场景，客户无需切换平台或架构即可完成复杂多变的计算任务。在各类计算框架之上，大数据平台通过统一SQL引擎，高度兼容标准SQL，智能选择计算引擎，极大降低使用复杂度，为上层应用程序提供标准的JDBC/ODBC/REST接口、多种语言的编程API和DaaS接口，辅以BI展示和可视化工具，通过即时报表、直方图、柱状图等方式直观呈现数据价值。

· 丰富的行业应用：大数据平台经过不断的产品优化和架构演进，已经成功在医疗、电力、税务、高校等多个行业落地实施，配合行业先进的应用服务开发商为客户提供丰富的大数据应用。

2 部署前说明 2.1 版本说明

大数据平台DataEngine的软件版本分为独立形态和云形态两种，根据实际使用需求，可任选一种进行部署。独立形态和云形态的版本，因使用的主机资源存在差异会导致部署流程和集群创建方式不同，但部署完成以后，大数据集群的管理和使用方式则完全一致。

· 独立形态

大数据集群在DataEngine大数据平台管理系统中直接创建。此时，大数据集群的主机资源直接使用独立的物理服务器资源，在DataEngine大数据平台管理系统中可直接新增和管理主机资源。

· 云形态

大数据集群在云平台的大数据平台DataEngine云服务中创建。此时，大数据集群的主机资源直接使用CloudOS IaaS纳管的云资源，包括虚拟机和裸金属两种，根据实际情况进行选择即可。

· 部署大数据平台包括“安装DataEngine软件包”和“创建大数据集群”两个步骤，并且有严格的部署顺序，请严格按照本文档执行部署操作。

· 本文档仅针对云形态的大数据平台版本，介绍如何安装DataEngine软件包、如何创建大数据集群、如何进行License授权等部署相关的操作指导。关于独立形态的大数据平台版本的安装部署操作请参见《H3C DataEngine大数据平台安装部署手册（独立形态）》。

2.2 大数据平台软件包

部署云形态的大数据平台时，需同时配套CloudOS Plat和CloudOS IaaS版本使用。

部署云形态的大数据平台时，需要准备的软件包如表2-1所示。

表2-1 软件列表

软件

软件包名称

用途说明

获取方式

DataEngine软件包

cloudos-dataengine-cloud-.zip

此软件包仅用于安装云形态的大数据平台，对应大数据平台DataEngine云服务（此时DataEngine依赖的CloudOS Plat和CloudOS IaaS需要单独安装）

由H3C提供

2.3 操作系统要求

部署云形态的大数据平台时，支持的操作系统说明如表2-2所示。

表2-2 操作系统说明

操作系统

版本说明

获取方式

H3Linux

H3Linux（Kernel-5.10.38-21.01）

由H3C提供

· 操作系统版本不支持中文语言。

· 大数据平台DataEngine云服务镜像中自带H3Linux操作系统镜像，部署大数据平台DataEngine云服务过程中会自动部署操作系统，无需单独安装。

2.4 网络要求

在部署CloudOS云平台前，进行网络规划需注意：系统默认占用了三个网段作为CloudOS Plat集群内部使用地址，即：10.240.0.0/12（缺省容器网段）、10.100.0.0/16（缺省K8S服务网段）、172.17.0.1/16（缺省docker网桥网段，即docker0所在网段）。若用户已规划的网络与内部网段冲突，则需重新规划用户网络。

· 要求大数据集群的主机节点与CloudOS Plat的主机节点网络互通。若规划大数据集群开启高可用，则对应虚拟IP也必须与大数据集群的主机节点处于同一网段。

· 建议大数据集群的主机节点网卡做聚合（对于使用裸金属部署的大数据集群，网卡聚合操作要求必须在大数据集群创建之后进行），支持bond0和bond4。

· 网络带宽要求在10Gb/s以上。

· 部署大数据集群前，各节点之间的网络不能跨越防火墙。

2.5 浏览器要求

访问云平台和大数据平台管理系统时，支持的浏览器如下：

· Chrome 68及以上版本

2.6 部署流程

图2-1 云形态的大数据平台部署流程图

表2-3 云形态的大数据平台部署流程说明

序号

步骤

是否必选

描述

了解系统通用要求

必选

了解操作系统要求、网络要求和浏览器要求

部署CloudOS Plat

必选

CloudOS Plat是部署DataEngine的基础底座，因此在部署DataEngine之前，必须完成CloudOS服务器操作系统的安装和CloudOS Plat部署。

关于部署DataEngine时，对CloudOS Plat的部署要求和说明，详情请参见H3C CloudOS产品相关文档以及部署CloudOS Plat章节

部署CloudOS IaaS

必选

云形态的大数据平台还依赖CloudOS IaaS，CloudOS IaaS提供大数据集群使用的主机资源，包括虚拟机和裸金属两种。因此在部署DataEngine之前，还必须完成CloudOS IaaS的部署。

关于CloudOS IaaS的部署指导，详情请参见H3C CloudOS产品相关文档和部署CloudOS IaaS章节

部署大数据平台DataEngine

上传DataEngine软件包

必选

访问云平台管理系统，上传DataEngine软件包。详情请参见上传DataEngine软件包章节

部署DataEngine软件包

必选

访问云平台管理系统，部署DataEngine软件包。DataEngine部署成功后，在管理页面中可查看相关大数据云服务。详情请参见部署DataEngine软件包章节

注意：此时DataEngine软件包会直接安装在CloudOS Plat的相同主机节点上

创建大数据集群

新建集群前准备

准备云资源

必选

大数据集群（云形态）的主机资源可直接使用CloudOS IaaS纳管的资源，包括裸金属和虚拟机两种，请根据实际情况进行选择。因此部署大数据集群前，需要首先准备主机资源。详情请参见大数据集群主机节点的配置要求

和新建集群前准备章节

新建集群

必选

DataEngine软件包对应大数据平台DataEngine云服务，进入云服务后即可新建集群。对应不同的集群类型，新建集群的配置不同，详情请参见新建集群章节

访问大数据平台管理系统

必须

新建集群成功之后，即可访问大数据平台的管理系统（为保证安全访问，此时建议添加浏览器安全证书），对集群执行相关管理、监控等操作

软件授权

必选

生产环境中，DataEngine需要经过正式License授权之后，才可永久使用。详情请参见配置License章节

集群创建后检查

可选

大数据集群创建成功之后，建议执行集群巡检，保证集群健康状态

可选

大数据集群创建成功之后，建议执行检查主机，保证主机健康状态

可选

大数据集群创建成功之后，建议执行检查组件，保证组件健康状态

3 安装DataEngine软件包 3.1 安装前必读

· 部署云形态的大数据平台时，需要提前完成CloudOS Plat和CloudOS IaaS的安装，且DataEngine软件包会直接安装在CloudOS Plat的相同主机节点上。

· 当DataEngine软件包安装成功以后，才可以创建大数据集群。

· DataEngine缺省以CloudOS Plat的主节点的本地时间作为基准时间。集群里的所有节点通过NTP协议向Master节点进行时钟校准，建议集群中所有节点与用户现场统一NTP服务器保持时钟校准。若出现时间不同步的情况，请参考9 5. 章节进行处理。

3.2 大数据平台部署前准备 3.2.1 部署CloudOS Plat

· 部署CloudOS Plat前需要完成CloudOS服务器的安装。

· 部署大数据平台时，对CloudOS服务器和CloudOS Plat的安装均无特别要求。

· 关于CloudOS服务器和CloudOS Plat的安装指导和注意事项，详情请参见H3C CloudOS产品相关文档。

CloudOS Plat部署成功后，即可访问云平台管理系统，此时可完成以下操作：

· 部署CloudOS IaaS

· 部署大数据平台DataEngine

· 创建大数据集群

· 管理大数据集群、管理资源/权限、管理工单/流程等

3.2.2 部署CloudOS IaaS

· 部署大数据平台时，对CloudOS IaaS的安装无特别要求。

· 关于CloudOS IaaS的部署指导，详情请参见H3C CloudOS产品相关文档。

CloudOS IaaS部署成功后，可提供云形态大数据平台中的大数据集群时所需要的裸金属资源或虚拟机资源。关于部署大数据集群时所需要的云资源的要求和配置说明，详情请参见4.3 大数据集群主机节点的配置要求和4.4 新建集群前准备。

3.3 部署大数据平台DataEngine

安装大数据平台DataEngine时，需同时配套CloudOS Plat和CloudOS IaaS版本使用，即安装大数据平台DataEngine软件包之前必须先完成CloudOS Plat（此时还需保证系统组件包harbor也已经安装成功）和CloudOS IaaS的部署，且大数据平台DataEngine软件包会直接安装在CloudOS Plat的相同主机节点上。

3.3.1 上传DataEngine软件包

上传DataEngine软件包，步骤如下：

(1) 访问云平台管理系统，在[系统/服务与组件/部署向导]页面，可查看DataEngine软件包的存放位置。

(2) 按照部署向导页面的提示信息，将DataEngine软件包上传至指定路径下（SFTP连接服务器IP地址时，用户名root，缺省密码Passw0rd@_）。

(3) 上传完成后，单击按钮即可在管理页面上查看到DataEngine软件包的相关信息。

图3-1 上传DataEngine软件包

3.3.2 部署DataEngine软件包

部署DataEngine软件包，步骤如下：

(1) 访问云平台管理系统，在[系统/服务与组件/部署向导]页面，勾选OS service下的cloudos-de后，可对该服务进行相关配置。

(2) 配置完成后，单击页面右下角的按钮，即可启动部署DataEngine软件包。

(3) DataEngine软件包部署成功后，在[系统/服务与组件/服务列表]页面，可查看cloudos-de的启停状态。当大数据平台DataEngine云服务为启用状态时，可在顶部导航栏云服务的下拉列表中进行查看。

图3-2 查看部署结果

4 创建大数据集群 4.1 创建前必读

· 云形态的大数据平台DataEngine主机资源直接使用CloudOS IaaS纳管的资源，包括虚拟机和裸金属两种，根据实际情况进行选择即可。大数据集群中的虚拟机或裸金属节点，网络要求和CloudOS集群中主机的网络互通。

· 在实际生产环境中，建议使用裸金属部署大数据集群，强烈不推荐使用虚拟机部署大数据集群。

· 大数据集群内置高可用方案，在生产环境中为避免单机故障的风险，强烈建议集群开启高可用。

· 部署Hadoop集群前，务必规划集群是否开启Kerberos认证、审计日志或权限与密钥管理，规划集群是否开启日志管理。请知：审计日志、权限与密钥管理、日志管理等功能若在新建集群时没有开启，则后续在使用过程中将再也无法开启，且一旦开启将再也无法关闭。

· 开启Kerberos后，业务端需要进行安全认证适配。所以在生产环境中，部署集群前，请务必确认清楚是否要开启Kerberos。

· 在大数据平台DataEngine云服务中，大数据集群内置组件部署规则，可使得大数据集群部署更简单，详情请参见4.2.1 章节。

4.2 创建前规划内容

为帮助准确把握大数据平台部署前规划的内容，请提前了解产品相关术语说明，详情请参见表1-1。

根据现场实际情况和业务需求，创建大数据集群前进行相关规划时，需关注以下内容：

· 规划大数据集群的类型，选择集群类型：Hadoop、Elasticsearch、Solr、Kafka或Redis集群。

· 规划大数据集群的模式，选择：独立模式或租户模式。

· 根据现场实际情况，规划大数据集群中的主机节点数目。

· 规划大数据集群是否开启高可用（强烈建议：生产环境必须开启高可用）。若规划大数据集群开启高可用，则需规划集群IP，用于访问高可用集群中的组件。

· 规划DE平台IP，即用于访问大数据平台管理系统的IP地址。

· 规划大数据集群的存储类型，选择：HDFS、对象存储。存储类型规划完成之后，请根据实际情况提前进行相关存储的准备。说明：当集群的存储类型为HDFS时表示采用原生HDFS存储方案；当集群的存储类型为对象存储的存算分离场景时，关于数据盘的具体规划方案请联系H3C技术支持工程师。

· 规划Hadoop集群是否开启安全管理（Kerberos认证、审计日志、权限与密钥管理），规划大数据集群是否开启日志管理。请知：安全管理、日志管理等功能若在新建集群时没有开启，则后续在使用过程中将再也无法开启，且一旦开启将再也无法关闭。

· 根据现场业务需求，对于Hadoop集群，需要规划大数据集群中安装哪些组件，为提升产品易用性，创建Hadoop集群时系统缺省内置了组件部署策略，详情请参见4.2.1 章节；对于Elasticsearch、Solr、Kafka和Redis集群，各类集群中可安装组件已缺省配置（不可更改）。

· 规划大数据集群中各主机的节点实例类型、规划是否需要专有节点实例（专门用来部署某个组件的节点）。

· 大数据集群（云形态）的主机资源直接使用CloudOS IaaS纳管的云资源，包括云主机和裸金属两种，根据实际情况进行选择即可。虚拟机和裸金属的配置要求详情请参见4.3 大数据集群主机节点的配置要求和4.4 新建集群前准备，需要注意：

¡ 集群部署在虚拟机节点上时，需要关注服务器的硬件配置要求。

¡ 集群部署在裸金属节点上时，需要关注服务器的硬件配置要求以及磁盘RAID方案。

4.2.1 系统内置的组件部署规则

在生产环境中，为避免单机故障的风险，大数据集群内置了高可用方案（即HA策略）。当集群开启高可用时，Master实例要求部署2个，组件相关的进程也会同时部署2个并自动开启高可用。

为提升产品易用性，创建大数据集群时缺省内置了组件部署策略，整体规则如下：

· 若某组件规划了专有实例节点，则相应组件优先默认部署在相应的专有实例节点上。

· Client类组件和进程默认在所有主机节点上都安装。

· 若某组件进程部署策略为“用户不可自行勾选”，说明该组件进程部署规则已做限制，用户不可以自定义修改；若某组件进程部署策略为“用户可自定义勾选”，说明根据现场实际情况，用户可调整该组件进程的部署配置，但是调整需遵循对应的部署原则。

· 若某组件如果有固定部署数量限制，则以部署数量为准，即虽然默认勾选了某类型的实例节点，但是并不是所有该类型的实例节点上都部署该组件。

4.3 大数据集群主机节点的配置要求

云形态的大数据集群可以部署在裸金属或虚拟机上，根据使用的云资源不同，部署前准备也不同。

· 集群部署在虚拟机上时，服务器的硬件配置要求请参见4.3.1 集群部署在虚拟机上时硬件要求。

· 集群部署在裸金属上时，需要关注服务器的硬件配置要求以及磁盘RAID方案，详情请参见4.3.2 集群部署在裸金属上时硬件要求。

4.3.1 集群部署在虚拟机上时硬件要求 1. 虚拟机主机硬件配置要求（生产环境中强烈不推荐使用虚拟机）

在实际生产环境中，建议使用裸金属部署大数据集群，强烈不推荐使用虚拟机部署大数据集群。若有虚拟机部署需求，请联系H3C技术支持工程师协助部署。

4.3.2 集群部署在裸金属上时硬件要求 1. 裸金属主机硬件配置要求

· 新建集群时，裸金属节点的规格根据硬件配置自动获取，规格数据来自云平台的[资源/裸金属资源池]中处于“可分配”状态的节点。

· 对应Hadoop集群以及独立组件（Elasticsearch、Solr、Kafka、Redis）集群，不同集群类型的服务器硬件配置要求不同。

表4-1 服务器硬件配置要求（适用于Hadoop集群）

配置项

最低配置要求

型号

主流服务器厂商x86服务器

数量

≥3台，单台配置如下

CPU

Intel Xeon V3系列或更新型号，总核数≥2路10核

主频：≥2.0 GHz

内存

≥256GB

系统盘

HDD（至少2块），推荐：每块盘容量≥600GB，转速≥10000r/min

数据盘

要求：至少1块，推荐：转速≥10000r/min

【说明】

· 集群至少使用1块数据盘（可参考业务数据量规划磁盘数量和容量）

· 支持SSD、HDD，也支持SSD和HDD混合使用

RAID卡

缓存： ≥1GB，支持掉电保护

网卡

要求：2张万兆网卡

表4-2 服务器硬件配置要求（适用于Elasticsearch、Solr、Kafka、Redis独立组件集群）

配置项

最低配置要求

型号

主流服务器厂商x86服务器

数量

≥3台，单台配置如下

CPU

Intel Xeon V3系列或更新型号，总核数≥2路10核

主频：≥2.0 GHz

内存

≥128GB

系统盘

HDD（至少2块），推荐：每块盘容量≥600GB，转速≥10000r/min

数据盘

要求：至少1块，推荐：转速≥10000r/min

【说明】

· 集群至少使用1块数据盘（可参考业务数据量规划磁盘数量和容量）

· 支持SSD、HDD，也支持SSD和HDD混合使用

RAID卡

缓存： ≥1GB，支持掉电保护

网卡

要求：2张万兆网卡

2. 裸金属主机磁盘RAID方案

选用裸金属部署大数据集群时，各节点的磁盘RAID整体原则如下：

· 操作系统盘做RAID1

· 对应Hadoop云服务，根据大数据集群中是否规划专有实例节点，数据盘分为两种情况：

¡ 大数据集群中的非专有实例节点，数据盘建议做单盘RAID0或直接裸磁盘（JBOD）。

¡ 若大数据集群中规划了专有实例节点（即：在Hadoop集群中为Redis、Zookeeper、Elasticsearch、Solr或Kafka组件配置专有实例节点），此时，对应专有实例节点的磁盘RAID方案如下：

- Zookeeper专有实例：建议做单盘RAID0或者直接裸磁盘（JBOD）

- Kafka专有实例：建议做单盘RAID0或者直接裸磁盘（JBOD）

- Redis专有实例：要求做RAID5

- Solr专有实例：要求做RAID5

- Elasticsearch专有实例：建议做单盘RAID0或者直接裸磁盘（JBOD）

· 对于Solr、Elasticsearch、Kafka和Redis独立组件集群，大数据集群中各主机的数据盘RAID方案如下：

¡ 在Solr、Kafka集群中，若规划为Zookeeper配置专有实例节点，则：建议Zookeeper专有实例节点做单盘RAID0或者直接裸磁盘（JBOD）

¡ Solr集群中的Solr实例：要求做RAID5

¡ Kafka集群中的Kafka实例：建议做单盘RAID0或者直接裸磁盘（JBOD）

¡ Elasticsearch集群中的Data实例或专有Master实例：建议做单盘RAID0或者直接裸磁盘（JBOD）

¡ Redis集群中的Redis实例：要求做RAID5

因不同厂商的硬件服务器设置方式略有不同，这里仅说明部署大数据平台DataEngine时配置RAID的建议，对于配置过程不做说明。

4.4 新建集群前准备

新建大数据集群时，同一个大数据集群中仅支持使用一种类型的云资源。

大数据集群的主机资源可直接使用CloudOS IaaS纳管的云资源，包括两种类型：

· 裸金属资源

· 虚拟机资源

· 若云平台上已配置云资源，则大数据集群可直接使用，关于大数据集群对云资源的要求详情请参见4.3 大数据集群主机节点的配置要求。若云平台上未配置云资源，则在部署大数据集群前，必须首先按要求准备云资源（按实际需求，二选一即可）。

4.4.1 准备裸金属资源

· 大数据集群使用裸金属云资源时，还需要单独准备一个裸金属独立计算节点。

· 部署大数据集群时，至少需要配置3个处于“可分配”状态的裸金属节点。在裸金属资源池中，若有处于“待回收”状态的裸金属，则部署大数据集群前需要手动将这部分裸金属回收，否则部署大数据集群时可能会随机选择到这部分“待回收”的裸金属，集群可能部署失败或使用异常。

图4-1 裸金属资源配置流程图

表4-3 裸金属资源配置说明

步骤

说明

开始

大数据集群主机规划使用裸金属时，启动裸金属资源相关配置

添加计算节点

安装系统

使用裸金属资源时，需要为裸金属添加专用的计算节点（该计算节点不属于CloudOS集群）。

关于裸金属计算节点操作系统安装及部署操作详情请参见CloudOS产品相关文档

部署计算节点

裸金属应用配置

配置计算可用域

计算可用域主要用于标识计算资源池，是一种对计算资源进行隔离的方法。

使用裸金属资源创建大数据集群时，需要新增计算可用域（虚拟化类型为BareMetal）

配置配额管理

配额管理用来配置计算可用域的资源配额。选择待使用裸金属的组织，进入该组织的[配额]页签，可修改其对应的配额

配置网络出口

进行计算节点的网络出口配置

配置经典网络

经典网络是云上的私有网络，用于为私有云构建安全隔离、自主配置和管理的虚拟网络环境。

使用裸金属资源创建大数据集群时，需要新建网络，然后在自己新建的网络中新建子网。

【注意】子网地址为在配额管理中配置的网络IP段，可自行分配IP地址，在填写可分配地址时，要确保填写的可分配地址IP段的IP未被占用，否则会导致部署裸金属失败。

生成密钥对

使用裸金属资源创建大数据集群时，需要使用密钥对。密钥对可对用户使用Client登录大数据集群时起到安全保护作用

分配裸金属节点

进入裸金属资源池，新建裸金属节点。添加裸金属节点成功后，单击操作栏的按钮，可将节点的配置信息（规格）显现出来。节点的配置信息即为节点的规格（CPU、内存、磁盘），部署大数据集群时通过规格寻找可用的裸金属节点

【注意】部署大数据集群时，至少需要配置3个处于“可分配”状态的裸金属节点

结束

完成裸金属资源相关配置，此时裸金属资源可被大数据集群使用

4.4.2 准备虚拟机资源

图4-2 虚拟机资源配置流程图

表4-4 虚拟机资源配置说明

步骤

说明

开始

大数据集群主机规划使用虚拟机时，启动虚拟机资源相关配置

虚拟机应用配置

虚拟化配置

在虚拟化管理页面，进行虚拟化配置，连通CAS环境

配置计算节点

在虚拟化管理页面，新建计算节点并完成计算节点的相关配置（配置计算节点时云主机初始化模式选择专业模式，其他需要的相关参数可联系CAS管理员进行获取）

安装CAS插件

安装CAS插件，要求CAS插件版本和CAS版本保持一致

配置计算可用域

计算可用域主要用于标识计算资源池，是一种对计算资源进行隔离的方法。

使用虚拟机资源创建大数据集群时，需要新增计算可用域（虚拟化类型为CAS）

配置配额管理

配额管理用来配置计算可用域的资源配额。选择待使用虚拟机的组织，进入该组织的[配额]页签，可修改其对应的配额

配置网络出口

进行计算节点的网络出口配置

配置经典网络

经典网络是云上的私有网络，用于为私有云构建安全隔离、自主配置和管理的虚拟网络环境。

使用虚拟机资源创建大数据集群时，需要新建网络，然后在自己新建的网络中新建子网。

【注意】子网地址为在配额管理中配置的网络IP段，可自行分配IP地址，在填写可分配地址时，要确保填写的可分配地址IP段的IP未被占用，否则会导致部署虚拟机失败。

生成密钥对

使用虚拟机资源创建大数据集群时，需要使用密钥对。密钥对可对用户使用Client登录大数据集群时起到安全保护作用

结束

完成虚拟机资源相关配置，此时虚拟机资源可被大数据集群使用

4.5 新建集群

· 普通用户新建集群时，需要走流程审批，待审批人审批通过后才能触发新建集群的操作。管理员用户新建集群时，会直接触发新建集群的操作。

· 集群名称具有唯一性，在系统中创建多个集群时名称不能重复。

· 新建集群前，要求在云平台中已完成云资源的准备。云资源包括裸金属和云主机两种，根据实际使用需求任选其一即可。关于云主机资源的准备过程和要求，详情请参见4.4 新建集群前准备。

· 不同组件之间可能存在依赖关系，请根据页面提示进行关联选择即可。

· 大数据集群支持安装的组件类别和版本号，详情请以实际页面为准。

· 集群创建完成后，集群中的主机节点不允许修改主机名。

· 集群创建成功后，若集群创建者权限发生了变化（比如：集群创建者的权限由组织管理员更改为普通用户），则此集群将无法再被删除，除非将集群创建者的权限更改回来。

· 如果当前版本中的大数据集群需对接绿洲数据运营平台，请配置“安全管理-Kerberos认证”和“安全管理-权限管理”为同时开启或关闭。

访问云平台管理系统，新建大数据集群的步骤如下：

(1) 在顶部导航栏选择[云服务/大数据计算/大数据平台DataEngine]菜单项，进入大数据平台DataEngine的管理页面。

(2) 在集群管理页面，单击按钮，跳转至新建集群页面。

(3) 根据页面提示配置对应参数项的值，不同集群类型的配置不同，如下：

¡ Hadoop集群：配置项说明详情请参见4.5.1 新建Hadoop集群。

¡ Elasticsearch集群：配置项说明详情请参见4.5.2 新建Elasticsearch集群。

¡ Solr集群：配置项说明详情请参见4.5.3 新建Solr集群。

¡ Kafka集群：配置项说明详情请参见4.5.4 新建Kafka集群。

¡ Redis集群：配置项说明详情请参见4.5.5 新建Redis集群。

(4) 创建集群启动后，会跳转至集群列表页面，等待一段时间集群即可创建完成，此时单击集群对应的按钮即可进入大数据集群的管理系统，执行大数据集群相关的管理操作。

4.5.1 新建Hadoop集群

· 新建集群前需要提前规划集群模式，且同时需要提前对节点数量、待安装组件、是否开启安全管理、是否开启日志管理、是否开启高可用等进行规划。

· 新建集群时，若没有开启安全管理（Kerberos除外）和高可用，则后续在使用过程中将再也无法开启。所以在生产环境中，强烈建议新建集群时同时开启安全管理和高可用。

· 新建集群时，对于Hadoop组件（包括HDFS、YARN、MapReduce、Hive、Spark、HBase、Flink、Impala、DLH）支持选择存储类型。存储类型支持HDFS、对象存储，请根据实际情况提前进行存储类型的规划以及相关存储的准备。需要注意：选择不同的存储类型时，部分组件部署时的内置组件缺省规则将不同，详情请待集群部署成功后查看。

· 创建集群时，云主机节点的实例规格要求最小为8*32*300（即8核CPU*32GB内存*300GB硬盘），超过最小规格要求的节点规格才可被识别到。云主机的实例规格可以在云平台的[云服务/计算/云主机]管理页面的左侧导航树中进入[服务配置/云主机规格/组合规格]页面进行自定义新增。

· 创建集群时，裸金属节点的实例规格根据硬件配置自动获取，规格数据来自云平台的[资源/裸金属资源池]中处于“可分配”状态的节点。

· 新建集群前，要求在云平台[云服务/网络/经典网络]管理页面完成所需IP的新增。

· 选择安装组件时，Hadoop组件提供针对大数据集群的分布式数据存储、离线计算、统一资源调度框架，包含HDFS、MapReduce、YARN。

· 新建集群时，可选择是否安装数据工厂。若安装集群时，没有同步选择安装数据工厂，在后续使用过程中又有数据工厂的需求，则补充安装数据工厂的方式请参见9 6. 章节。

· 大数据集群创建完以后，集群中的主机节点不允许修改主机名。

新建Hadoop集群时，可选择安装Spark、Elasticsearch、Hive、Flink、Zookeeper、Kafka等组件，支持部署多种模式或多种功能用途的大数据集群，比如查询分析集群、流式计算集群、全文检索集群等。

新建Hadoop集群包括3个配置步骤，根据提示配置对应参数项的值，如下：

(1) 第一步：基础配置，参数说明如下：

¡ 集群名称：自定义输入符合命名规则的集群名称。

¡ 集群类型：选择Hadoop类型。

¡ 集群模式：选择集群的模式，包括独立模式和租户模式两种。

¡ 集群描述：自定义添加集群的描述信息，以便于快速了解集群相关信息。

¡ 选择安装组件：根据部署规划，勾选待安装的组件。其中：基础组件Hadoop和Zookeeper为必选项，其他组件可选。

¡ 安全管理：可选择是否开启安全管理。若选择开启，则同时提供Kerberos认证、审计日志、权限与密钥管理功能，提供用户安全认证和数据安全访问等功能，保证数据安全性。租户集群缺省开启安全管理功能（不支持关闭）。

- Kerberos认证：Kerberos认证可以提供用户安全认证功能。独立集群可选择是否开启Kerberos认证。租户集群缺省开启Kerberos认证功能（不支持关闭）。

- 审计日志：选择集群是否开启审计日志。审计日志可以记录用户访问组件的信息，并提供页面化的查询功能。

- 权限与密钥管理：开启安全管理时默认开启权限与密钥管理。权限与密钥管理可以提供数据的访问权限控制和HDFS密钥管理工具。

¡ 组件日志：选择集群是否开启组件日志。若选择开启，则该集群提供组件日志功能；若没有开启，则后续在使用过程中将再也无法开启。

¡ 存储类型：为Hadoop组件选择存储类型，包括HDFS、对象存储。

- 存储类型选择HDFS时，表示将HDFS数据存储在HDFS组件的DataNode中，即属于存储和计算未分离情况。

- 存储类型选择对象存储时，表示将HDFS数据存储在对象存储内，即属于存储和计算分离情况。

参数

说明

网关地址

对象存储的网关地址，支持IP或域名两种方式。当选择以域名作为网关地址时需要填写DNS IP，当选择以IP作为网关地址时DNS IP不需要填写。

网络要求：大数据集群主机需可以正常访问网关地址。

Access Key

用户访问对象存储时用到的Access Key ID，用于标识用户。

Secret Key

用户访问对象存储时用到的Secret Key，用于验证用户的密钥。

容器名称

对象网关的bucket（桶）。

DNS IP

DNS IP地址，即域名服务器的IP地址。

¡ 数据工厂：选择是否部署数据工厂，数据工厂提供了可视化SQL开发及工作流调度能力。若选择部署数据工厂，则对应的大数据平台拥有数据工厂的功能。

图4-3 基础配置

(2) 第二步：硬件配置，参数说明如下：

¡ 高可用：选择集群是否开启高可用。若选择开启，则组件的管理进程将同时部署到两个节点上，实现双机热备；若未开启高可用，则存在单机故障的风险。

¡ 资源区域：配置集群使用的资源区域，资源区域对应集群节点的虚拟化类型。资源区域需提前在云平台的[资源/可用域/计算可用域]中进行准备。

¡ CPU工作模式：当虚拟化类型为BareMetal时，不展示此参数；当虚拟化类型为CAS时，需配置此参数，当前版本中，仅支持兼容模式、直通模式、主机匹配模式三种类型.

- 兼容模式：虚拟化内核软件模拟的通用标准虚拟CPU。这种模型的优点是兼容性好；缺点是没有为虚拟机操作系统提供最优的性能。

- 直通模式：直接将服务器主机CPU型号和大部分功能透传给虚拟机。这种模型的优点是能够提供最优的性能；缺点是迁移兼容性很差，可能同一厂家不同代的CPU之间也不能迁移。

- 主机匹配模式：虚拟化内核软件模拟的与物理服务器CPU最接近的CPU型号。这种模型的优点是能够尽可能地找到CPU性能与Flags参数相近的主机，缺点是在不同CPU的服务器上，自动找出的型号也不相同，迁移兼容性较差。

¡ 虚拟化类型：当前版本中，仅支持CAS和BareMetal类型。其中：CAS类型对应的云资源为云主机，BareMetal类型对应的云资源为裸金属，请根据实际情况进行选择。

¡ 密钥对：配置密钥对后可实现通过密钥文件直接进行集群主机的免密登录。密钥对需提前在云平台的[云服务/云主机/密钥对]中进行准备。

¡ 管理网络：配置集群的管理网络。管理网络需提前在云平台的[云服务/经典网络]中进行准备。

- 若管理网络中仅包含一个子网，集群节点的节点IP、DE平台IP和集群IP均可由系统自动分配或用户根据实际需要自定义配置。

- 若管理网络中包含多个子网，集群节点的节点IP、DE平台IP和集群IP必须由用户进行自定义配置，配置后需通过IP校验。注意：自定义配置的所有IP地址需网络互通。

¡ 集群节点：创建集群时，集群节点包含多种类型，详情请参见表4-5。新建集群时，集群节点配置包括：

- 集群节点数量至少为3个，请根据实际情况进行配置。根据是否开启高可用，Master节点要求部署个数不同，且Core节点的最少部署个数也不同。

- 集群节点IP支持自动分配和自定义配置两种方式，其中自定义配置节点IP时直接在输入框中配置固定IP地址即可（要求配置的固定IP地址必须属于云平台[云服务/网络/经典网络]管理页面新增IP的范围），不输入时则默认自动分配。

【注意】当虚拟化类型为CAS时，Master节点的实例规格必须完全一样，Core节点的实例规格也必须完全一样，格式为“CPU*内存*硬盘”（CPU单位为“核”，内存单位为“GB”，硬盘单位为“GB”），请根据实际情况进行选择，若需要新增实例规格请前往云主机管理页面进行规格配置；当虚拟化类型为BareMetal时，Master节点的实例规格必须完全一样，Core节点的实例规格则不做限制。

表4-5 集群节点说明

节点类型

是否必选

选型说明

描述

Master实例

必选

即主实例，用来管理集群、进行资源调度的实例，主要部署各组件的Master进程，如NameNode、ResourceManager等

【说明】若集群未开启高可用，则Master实例个数为1，且不可更改；若集群开启了高可用，则Master实例个数为2，且不可更改

在生产环境中，强烈建议集群开启高可用，此时HDFS、YARN、Hive、HBase等组件也将同步开启HA

【注意】在生产环境中，若在创建集群的硬件配置步骤没有开启高可用，后续在使用过程中集群将再也无法开启高可用

Core实例

必选

即核心实例，用来存储数据和处理数据的实例，主要部署各组件的数据进程等，如DataNode，NodeManager等

【说明】若集群未开启高可用，则Core实例个数至少为2；若集群开启了高可用，则Core实例个数至少为1

在生产环境中，Core实例的个数需要根据实际数据量大小或计算需求等情况进行规划

专有实例

可选

当前版本中，集群支持的专有实例类型包括：Redis、Zookeeper、Elasticsearch、Solr、Kafka

集群达到一定规模时，可单独部署指定组件的实例

¡ 硬盘创建方式：当虚拟化类型为BareMetal时，不展示此参数；当虚拟化类型为CAS时，需配置此参数，当前版本中，仅支持普通创建和通过云硬盘创建两种类型。

- 普通创建：大数据集群节点的主机使用本地硬盘进行创建，即创建云主机时使用本地硬盘自动创建系统盘。

- 通过云硬盘创建：大数据集群节点的主机使用云硬盘进行创建，即创建云主机时会新建一块云硬盘作为系统盘。云硬盘所使用的资源来自存储可用域中的存储池。

参数

说明

存储可用域

存储可用域是一个或多个可以提供虚拟磁盘资源的存储空间的集合，是一种对存储资源进行隔离的方法。创建云硬盘时需要选择到某个存储可用域，存储可用域需提前在云平台的[资源/可用域/存储可用域]中进行准备。

【注意】云硬盘所在存储可用域需与待使用云硬盘的云主机所在计算可用域属于同一计算节点。

硬盘类型

硬盘类型主要用于定义云硬盘的置备类型。创建云硬盘时需要指定硬盘类型，硬盘类型需提前在云平台的[云服务/云硬盘/服务配置/云硬盘类型]中进行准备。

数据盘

可选择是否开启。数据盘是云硬盘服务单独提供的“硬盘”，区别于随云主机创建的系统盘，销毁云主机时对应的数据盘及数据盘上的数据均会被同步销毁。

· 若不开启，表示在大数据集群每个节点的主机上，均不会通过云硬盘创建数据盘。

· 若开启，表示在大数据集群中每个节点的主机上，均会同时通过云硬盘创建数据盘，此时需要配置数据盘的容量和数量。

¡ DE平台IP：用于访问大数据平台管理系统的IP地址（要求配置的IP地址必须属于云平台[云服务/网络/经典网络]页面新增IP的范围）。

¡ 集群IP：当集群规划开启高可用时，用于访问高可用集群中的组件（要求配置的IP地址必须属于云平台[云服务/网络/经典网络]页面新增IP的范围）。

【注意】若集群规划开启高可用，则此时配置的集群IP不能与DE平台IP相同。

¡ 用户名：包含root、admin和hadoop01用户。其中：

- root：指集群中所有主机的root用户，用来远程登录集群主机。

- admin：登录大数据平台管理系统的系统超级管理员用户。

- hadoop01：集群超级用户，用于访问集群中的组件，并拥有对应组件权限。待新建集群成功后，集群超级用户会自动同步到大数据集群的[集群权限/用户管理]中。

¡ 密码：创建集群时，root、admin和hadoop01用户对应的初始密码，且这三种用户的初始密码相同。

¡ 确认密码：再次输入密码，进行确认。

图4-4 硬件配置

(3) 第三步：确认信息，查看集群的基础配置、硬件配置的详细信息，若检查配置无误可单击按钮启动创建集群，若检查配置有误可返回上一步进行修改。

图4-5 确认信息

4.5.2 新建Elasticsearch集群

· 新建集群前需要提前对节点数量（是否配置专有Master实例或Client实例）、是否开启安全管理、是否开启高可用等进行规划。

· 新建集群时，若没有开启安全管理和高可用，则后续在使用过程中将再也无法开启。

· 创建集群时，裸金属节点的实例规格根据硬件配置自动获取，规格数据来自云平台的[资源/裸金属资源池]中处于“可分配”状态的节点。

· 新建集群前，要求在云平台[云服务/网络/经典网络]管理页面完成所需IP的新增。

· 选择安装组件时，不同组件之间可能存在依赖关系，请根据页面提示进行关联选择即可。

· 集群创建完以后，集群中的主机节点不允许修改主机名。

新建Elasticsearch集群包括3个配置步骤，根据提示配置对应参数项的值，如下：

(1) 第一步：基础配置，参数说明如下：

¡ 集群名称：自定义输入符合命名规则的集群名称。

¡ 集群类型：选择Elasticsearch类型。

¡ 集群模式：选择集群的模式，包括独立模式和租户模式。

¡ 集群描述：自定义添加集群的描述信息，以便于快速了解集群相关信息。

¡ 安装组件：已缺省配置选择Elasticsearch。

¡ 安全管理：可选择是否开启安全管理。若选择开启，则同时提供Kerberos认证、权限管理功能，提供用户安全认证和数据安全访问等功能，保证数据安全性。租户集群缺省开启安全管理功能（不支持关闭）。

- Kerberos认证：Kerberos认证可以提供用户安全认证功能。独立集群可选择是否开启Kerberos认证。租户集群缺省开启Kerberos认证功能（不支持关闭）。

- 权限管理：开启安全管理时默认开启权限管理，提供数据的权限访问控制。

图4-6 基础配置

(2) 第二步：硬件配置，参数说明如下：

¡ 集群管理高可用：选择集群管理是否开启高可用。若选择开启，则组件的管理进程将同时部署到两个节点上，实现双机热备；若未开启高可用，则存在单机故障的风险。

¡ 资源区域：配置集群使用的资源区域，资源区域对应集群节点的虚拟化类型。资源区域需提前在云平台的[资源/可用域/计算可用域]中进行准备。

- 兼容模式：虚拟化内核软件模拟的通用标准虚拟CPU。这种模型的优点是兼容性好；缺点是没有为虚拟机操作系统提供最优的性能。

¡ 密钥对：配置密钥对后可实现通过密钥文件直接进行集群主机的免密登录。密钥对需提前在云平台的[云服务/云主机/密钥对]中进行准备。

¡ 管理网络：配置集群的管理网络。管理网络需提前在云平台的[云服务/经典网络]中进行准备。

- 若管理网络中仅包含一个子网，集群节点的节点IP、DE平台IP和集群IP均可由系统自动分配或用户根据实际需要自定义配置。

¡ 集群节点：创建集群时，集群节点包含多种类型，详情请参见表4-6。此时，Elasticsearch集群可选择是否开启专有Master实例或Client实例。新建集群时，集群节点配置包括：

- 集群节点数量至少为3个，请根据实际情况进行配置。

【注意】当虚拟化类型为CAS时，同一节点类型的实例规格必须完全一样，格式为“CPU*内存*硬盘”（CPU单位为“核”，内存单位为“GB”，硬盘单位为“GB”），请根据实际情况进行选择，若需要新增实例规格请前往云主机管理页面进行规格配置；当虚拟化类型为BareMetal时，同一节点类型的实例规格也必须完全一样。

表4-6 集群节点说明

节点类型

是否必选

选型说明

描述

专有Master实例

可选

用于处理数据读写请求的实例，可避免大数据量时Data实例负载过大。若开启专有Master实例，则集群的主节点将在专有Master实例中选出，主节点只管理集群的元数据信息，不存储数据。

【说明】建议在大于等于10实例的集群中开启该功能，且10~49实例的集群建议配置3个专有Master实例，50~100实例的集群建议配置5个专有Master实例

若配置专有Master实例，则实例个数至少配置3个，且只能配置奇数个

Data实例

必选

用来存储数据的实例，如果集群不开启专有Master实例，则Data实例同时承担数据读写请求

在生产环境中，Data实例的个数需要根据实际数据量大小或计算需求等情况进行规划

· 未开启专有Master实例时，Data实例至少配置3个，且建议配置奇数个

· 若开启专有Master实例时，Data实例个数根据实际需求进行配置即可

Client实例

可选

用于对读写请求进行负载均衡的实例。Client实例既不参与主节点选举，也不存储数据，仅负责转发读写请求

若配置Client实例，则实例个数至少配置1个

- 普通创建：大数据集群节点的主机使用本地硬盘进行创建，即创建云主机时使用本地硬盘自动创建系统盘。

参数

说明

存储可用域

【注意】云硬盘所在存储可用域需与待使用云硬盘的云主机所在计算可用域属于同一计算节点。

硬盘类型

数据盘

· 若不开启，表示在大数据集群每个节点的主机上，均不会通过云硬盘创建数据盘。

· 若开启，表示在大数据集群中每个节点的主机上，均会同时通过云硬盘创建数据盘，此时需要配置数据盘的容量和数量。

¡ DE平台IP：用于访问大数据平台管理系统的IP地址（要求配置的IP地址必须属于云平台[云服务/网络/经典网络]页面新增IP的范围）。

¡ 集群IP：当集群规划开启高可用时，用于访问高可用集群中的组件（要求配置的IP地址必须属于云平台[云服务/网络/经典网络]页面新增IP的范围）。

【注意】若集群规划开启高可用，则此时配置的集群IP不能与DE平台IP相同。

¡ 用户名：包含root、admin用户。其中：

- root：指集群中所有主机的root用户，用来远程登录集群主机。

- admin：登录大数据平台管理系统的系统超级管理员用户。

¡ 密码：创建集群时，root、admin用户对应的初始密码，且这两种用户的初始密码相同。

¡ 确认密码：再次输入密码，进行确认。

图4-7 硬件配置

表4-7 确认信息

4.5.3 新建Solr集群

· 新建集群前需要提前对节点数量、是否开启安全管理、是否开启高可用等进行规划。

· 新建集群时，若没有开启安全管理和高可用，则后续在使用过程中将再也无法开启。

· 创建集群时，裸金属节点的实例规格根据硬件配置自动获取，规格数据来自云平台的[资源/裸金属资源池]中处于“可分配”状态的节点。

· 新建集群前，要求在云平台[云服务/网络/经典网络]管理页面完成所需IP的新增。

· 集群创建完成后，集群中的主机节点不允许修改主机名。

新建Solr集群包括3个配置步骤，根据提示配置对应参数项的值，如下：

(1) 第一步：基础配置，参数说明如下：

¡ 集群名称：自定义输入符合命名规则的集群名称。

¡ 集群类型：选择Solr类型。

¡ 集群模式：Solr集群仅支持独立模式。

¡ 集群描述：自定义添加集群的描述信息，以便于快速了解集群相关信息。

¡ 安装组件：已缺省配置选择Zookeeper、Solr。

¡ 安全管理：可选择是否开启安全管理。若选择开启，则同时提供Kerberos认证、权限管理功能，提供用户安全认证和数据安全访问等功能，保证数据安全性。

- Kerberos认证：Kerberos认证可以提供用户安全认证功能。开启安全管理时默认开启Kerberos认证（不支持关闭）。

- 权限管理：开启安全管理时默认开启权限管理，提供数据的权限访问控制。

图4-8 基础配置

(2) 第二步：硬件配置，参数说明如下：

¡ 资源区域：配置集群使用的资源区域，资源区域对应集群节点的虚拟化类型。资源区域需提前在云平台的[资源/可用域/计算可用域]中进行准备。

- 兼容模式：虚拟化内核软件模拟的通用标准虚拟CPU。这种模型的优点是兼容性好；缺点是没有为虚拟机操作系统提供最优的性能。

¡ 密钥对：配置密钥对后可实现通过密钥文件直接进行集群主机的免密登录。密钥对需提前在云平台的[云服务/云主机/密钥对]中进行准备。

¡ 管理网络：配置集群的管理网络。管理网络需提前在云平台的[云服务/经典网络]中进行准备。

- 若管理网络中仅包含一个子网，集群节点的节点IP、DE平台IP和集群IP均可由系统自动分配或用户根据实际需要自定义配置。

¡ 集群节点：创建集群时，集群节点包含多种类型，详情请参见表4-8。此时，Solr集群可选择是否开启专有Zookeeper实例。新建集群时，集群节点配置包括：

- 集群节点数量至少为3个，请根据实际情况进行配置。

表4-8 集群节点说明

节点类型

是否必选

选型说明

描述

Solr实例

必选

Solr运行实例

实例个数至少配置3个

专有Zookeeper实例

可选

用来协调整个集群的实例

【说明】建议在大于等于50实例的集群中开启该功能，且50~100节点建议配置5个

若配置Zookeeper专有实例，则实例个数至少配置3个，且只能配置奇数个

【说明】

· 若未配置Zookeeper专有实例，则Zookeeper与Solr部署在相同节点上

· 若配置Zookeeper专有实例，则Zookeeper与Solr分开部署

- 普通创建：大数据集群节点的主机使用本地硬盘进行创建，即创建云主机时使用本地硬盘自动创建系统盘。

参数

说明

存储可用域

【注意】云硬盘所在存储可用域需与待使用云硬盘的云主机所在计算可用域属于同一计算节点。

硬盘类型

数据盘

· 若不开启，表示在大数据集群每个节点的主机上，均不会通过云硬盘创建数据盘。

· 若开启，表示在大数据集群中每个节点的主机上，均会同时通过云硬盘创建数据盘，此时需要配置数据盘的容量和数量。

¡ DE平台IP：用于访问大数据平台管理系统的IP地址（要求配置的IP地址必须属于云平台[云服务/网络/经典网络]页面新增IP的范围）。

¡ 集群IP：当集群规划开启高可用时，用于访问高可用集群中的组件（要求配置的IP地址必须属于云平台[云服务/网络/经典网络]页面新增IP的范围）。

【注意】若集群规划开启高可用，则此时配置的集群IP不能与DE平台IP相同。

¡ 用户名：包含root、admin用户。其中：

- root：指集群中所有主机的root用户，用来远程登录集群主机。

- admin：登录大数据平台管理系统的系统超级管理员用户。

¡ 密码：创建集群时，root、admin用户对应的初始密码，且这两种用户的初始密码相同。

¡ 确认密码：再次输入密码，进行确认。

图4-9 硬件配置

图4-10 确认信息

4.5.4 新建Kafka集群

· 新建集群前需要提前规划集群模式，且同时需要提前对节点数量、是否开启安全管理、是否开启高可用等进行规划。

· 新建集群时，若没有开启安全管理和高可用，则后续在使用过程中将再也无法开启。

· 创建集群时，裸金属节点的实例规格根据硬件配置自动获取，规格数据来自云平台的[资源/裸金属资源池]中处于“可分配”状态的节点。

· 新建集群前，要求在云平台[云服务/网络/经典网络]管理页面完成所需IP的新增。

· 集群创建完成后，集群中的主机节点不允许修改主机名。

新建Kafka集群包括3个配置步骤，根据提示配置对应参数项的值，如下：

(1) 第一步：基础配置，参数说明如下：

¡ 集群名称：自定义输入符合命名规则的集群名称。

¡ 集群类型：选择Kafka类型。

¡ 集群模式：选择集群的模式，包括独立模式和租户模式两种。

¡ 集群描述：自定义添加集群的描述信息，以便于快速了解集群相关信息。

¡ 安装组件：已缺省配置选择Zookeeper、Kafka。

- Kerberos认证：Kerberos认证可以提供用户安全认证功能。独立集群可选择是否开启Kerberos认证。租户集群缺省开启Kerberos认证功能（不支持关闭）。

- 权限管理：开启安全管理时默认开启权限管理，提供数据的权限访问控制。

图4-11 基础配置

(2) 第二步：硬件配置，参数说明如下：

¡ 资源区域：配置集群使用的资源区域，资源区域对应集群节点的虚拟化类型。资源区域需提前在云平台的[资源/可用域/计算可用域]中进行准备。

- 兼容模式：虚拟化内核软件模拟的通用标准虚拟CPU。这种模型的优点是兼容性好；缺点是没有为虚拟机操作系统提供最优的性能。

¡ 密钥对：配置密钥对后可实现通过密钥文件直接进行集群主机的免密登录。密钥对需提前在云平台的[云服务/云主机/密钥对]中进行准备。

¡ 管理网络：配置集群的管理网络。管理网络需提前在云平台的[云服务/经典网络]中进行准备。

- 若管理网络中仅包含一个子网，集群节点的节点IP、DE平台IP和集群IP均可由系统自动分配或用户根据实际需要自定义配置。

¡ 集群节点：创建集群时，集群节点包含多种类型，详情请参见表4-9。此时，Kafka集群可选择是否开启专有Zookeeper实例。新建集群时，集群节点配置包括：

- 集群节点数量至少为3个，请根据实际情况进行配置。

表4-9 集群节点说明

节点类型

是否必选

选型说明

描述

Kafka实例

必选

Kafka运行实例

为保证Kafka数据高可用，实例个数至少配置3个

专有Zookeeper实例

可选

用来协调整个集群的实例，集群达到一定规模时，可单独部署Zookeeper的实例

若配置Zookeeper专有实例，则实例个数至少配置3个，且只能配置奇数个

【说明】

· 若未配置Zookeeper专有实例，则Zookeeper与Kafka部署在相同节点上

· 若配置Zookeeper专有实例，则Zookeeper与Kafka分开部署

- 普通创建：大数据集群节点的主机使用本地硬盘进行创建，即创建云主机时使用本地硬盘自动创建系统盘。

参数

说明

存储可用域

【注意】云硬盘所在存储可用域需与待使用云硬盘的云主机所在计算可用域属于同一计算节点。

硬盘类型

数据盘

· 若不开启，表示在大数据集群每个节点的主机上，均不会通过云硬盘创建数据盘。

· 若开启，表示在大数据集群中每个节点的主机上，均会同时通过云硬盘创建数据盘，此时需要配置数据盘的容量和数量。

¡ DE平台IP：用于访问大数据平台管理系统的IP地址（要求配置的IP地址必须属于云平台[云服务/网络/经典网络]页面新增IP的范围）。

¡ 集群IP：当集群规划开启高可用时，用于访问高可用集群中的组件（要求配置的IP地址必须属于云平台[云服务/网络/经典网络]页面新增IP的范围）。

【注意】若集群规划开启高可用，则此时配置的集群IP不能与DE平台IP相同。

¡ 用户名：包含root、admin用户。其中：

- root：指集群中所有主机的root用户，用来远程登录集群主机。

- admin：登录大数据平台管理系统的系统超级管理员用户。

¡ 密码：创建集群时，root、admin用户对应的初始密码，且这两种用户的初始密码相同。

¡ 确认密码：再次输入密码，进行确认。

图4-12 硬件配置

图4-13 确认信息

4.5.5 新建Redis集群

· 新建集群前需要提前对节点数量等进行规划。

· Redis仅支持集群模式，且Redis集群模式的集群节点数必须大于等于3。

· 新建集群时，若没有开启安全管理，则后续在使用过程中将再也无法开启。

· 创建集群时，裸金属节点的实例规格根据硬件配置自动获取，规格数据来自云平台的[资源/裸金属资源池]中处于“可分配”状态的节点。

· 新建集群前，要求在云平台[云服务/网络/经典网络]管理页面完成所需IP的新增。

· 集群创建完成后，集群中的主机节点不允许修改主机名。

新建Redis集群包括3个配置步骤，根据提示配置对应参数项的值，如下：

(1) 第一步：基础配置，参数说明如下：

¡ 集群名称：自定义输入符合命名规则的集群名称。

¡ 集群类型：选择Redis类型。

¡ 集群模式：Redis集群仅支持独立模式。

¡ 集群描述：自定义添加集群的描述信息，以便于快速了解集群相关信息。

¡ 安装组件：已缺省配置选择Redis。

¡ 安全管理：可选择是否开启安全管理。若选择开启，表示开启权限管理（不开启Kerberos），提供用户权限控制功能，保证数据安全性。

¡ 实例副本数：配置Redis集群备份模式，支持单副本和双副本两种方式。根据实际需要，可自定义进行选择。

- 单副本：存在一主一从的副本机制，主从实例间数据实时同步，能够在主库出现故障的时候自动进行主备切换。

- 双副本：存在一主两从的副本机制，即一个主实例具备两个从实例，可进一步保障数据的高可用，主从实例间数据实时同步，能够在主库出现故障的时候自动进行主备切换。

图4-14 基础配置

(2) 第二步：硬件配置，参数说明如下：

¡ 集群管理高可用：缺省开启集群管理高可用，此时组件的管理进程将同时部署到两个节点上，实现双机热备，提高可靠性。

¡ 资源区域：配置集群使用的资源区域，资源区域对应集群节点的虚拟化类型。资源区域需提前在云平台的[资源/可用域/计算可用域]中进行准备。

- 兼容模式：虚拟化内核软件模拟的通用标准虚拟CPU。这种模型的优点是兼容性好；缺点是没有为虚拟机操作系统提供最优的性能。

¡ 密钥对：配置密钥对后可实现通过密钥文件直接进行集群主机的免密登录。密钥对需提前在云平台的[云服务/云主机/密钥对]中进行准备。

¡ 管理网络：配置集群的管理网络。管理网络需提前在云平台的[云服务/经典网络]中进行准备。

- 若管理网络中仅包含一个子网，集群节点的节点IP、DE平台IP和集群IP均可由系统自动分配或用户根据实际需要自定义配置。

¡ 集群节点：创建集群时，集群节点详情请参见表4-10。新建集群时，集群节点配置包括：

- 集群节点数量至少为3个，请根据实际情况进行配置。

表4-10 集群节点说明

节点类型

是否必选

选型说明

描述

Redis实例

必选

Redis运行实例

Redis仅支持集群模式，实例个数至少配置3个。

【注意】对于Redis集群模式，主机个数均限制小于等于500。在生产环境中，为保证Redis服务的高可用及稳定性，建议主机个数至少3个节点，且推荐主机个数为奇数。

- 普通创建：大数据集群节点的主机使用本地硬盘进行创建，即创建云主机时使用本地硬盘自动创建系统盘。

参数

说明

存储可用域

【注意】云硬盘所在存储可用域需与待使用云硬盘的云主机所在计算可用域属于同一计算节点。

硬盘类型

数据盘

· 若不开启，表示在大数据集群每个节点的主机上，均不会通过云硬盘创建数据盘。

· 若开启，表示在大数据集群中每个节点的主机上，均会同时通过云硬盘创建数据盘，此时需要配置数据盘的容量和数量。

¡ DE平台IP：用于访问大数据平台管理系统的IP地址（要求配置的IP地址必须属于云平台[云服务/网络/经典网络]页面新增IP的范围）。

¡ 集群IP：当集群开启高可用时，用于访问高可用集群中的组件（要求配置的IP地址必须属于云平台[云服务/网络/经典网络]页面新增IP的范围）。

【注意】若集群开启高可用，则此时配置的集群IP不能与DE平台IP相同。

¡ 用户名：包含root、admin用户。其中：

- root：指集群中所有主机的root用户，用来远程登录集群主机。

- admin：登录大数据平台管理系统的系统超级管理员用户。

¡ 密码：创建集群时，root、admin用户对应的初始密码，且这两种用户的初始密码相同。

¡ 确认密码：再次输入密码，进行确认。

图4-15 硬件配置

图4-16 确认信息

4.6 管理集群

· 大数据集群创建完成后，自动同步完成该集群对应的大数据平台管理系统的安装。在集群管理页面单击集群名进入集群详情页面，在主机列表中查看包含“master”关键字的主机名即为DataEngine大数据平台管理系统的管理节点。

· 在集群列表中单击某集群对应的按钮跳转至大数据平台管理系统时，需要输入大数据平台管理系统的用户名/密码（首次访问时，仅能通过admin用户，对应的密码在新建集群时进行配置）。访问大数据平台管理系统后，在大数据平台管理系统的[系统/系统用户]页面可自定义增加其他类型的访问用户，但是不同类型的用户访问大数据平台管理系统时可查看到的功能页面不同，详情请以实际页面为准。

· 由于DataEngine大数据平台管理系统仅支持通过https协议访问，所以需要为浏览器添加授权证书以保证安全访问，配置客户端的操作详情请参见5.2 章节。

· 若DataEngine大数据平台管理系统被扫描出存在CSRF（跨站点请求伪造）漏洞，处理方案请参见9 10. 章节。

大数据集群创建完成后，若需要对该集群执行管理操作，则要进入大数据平台管理系统。

(1) 在顶部导航栏选择[云服务/大数据计算/大数据平台DataEngine]菜单项，进入大数据平台DataEngine的管理页面。

(2) 在集群管理页面，单击集群列表中某集群对应的按钮，如图4-17所示，可直接跳转至大数据平台管理系统。

(3) 如图4-18所示，登录该集群对应的大数据平台管理系统中，在[集群管理/集群列表]页面可查看到该大数据集群，对于Hadoop类型集群在[集群权限/用户管理]页面可查看到集群超级用户。

(4) 此时，在大数据平台管理系统中，可以对该集群执行相关管理操作（比如：组件管理、用户/角色管理等），更多操作说明请参见产品在线联机帮助。

图4-17 管理集群

图4-18 大数据平台管理系统

5 DataEngine相关配置 5.1 配置License

大数据集群和数据工厂部署完成后，可在180天内试用所有功能。超过试用期限后，需要获取License授权才能正常使用。

关于大数据平台License授权详情请参见《H3C DataEngine大数据平台产品License支持情况说明》。

5.1.1 License远程授权操作

大数据平台需通过License Server获取授权，在进行大数据平台的License配置时，需提前完成License远程授权相关操作，详情请参见《H3C软件产品远程授权License使用指南》。

5.1.2 配置大数据集群的License

· 大数据集群的License需要在大数据平台管理系统中进行配置，在云平台管理系统中无法配置。

· 进行大数据集群的License配置之前，需要提前完成CloudOS IaaS的License配置。

访问云平台管理系统，成功连接到License Server的客户端后，大数据集群可以向License Server请求授权并将请求结果展示在页面上。

配置大数据集群License的步骤如下：

(1) 在顶部导航栏选择[云服务/大数据计算/大数据平台DataEngine]菜单项，进入大数据平台DataEngine的管理页面。

(2) 在集群管理页面，单击集群列表中某集群对应的按钮，可直接跳转至大数据平台管理系统。

(3) 在大数据平台管理系统，选择[系统/软件授权]进入软件授权页面。

(4) 软件授权页面显示“License Server配置”和“授权信息”，下面对这两部分进行详细介绍。

图5-1 软件授权

¡ License Server配置

单击按钮可进行License Server配置，配置完成后可连接到对应的License Server客户端自动获取授权信息，且可查看状态信息、授权服务IP地址、授权服务端口信息。

License Server配置参数项如下：

- 授权服务IP地址：License Server客户端所在主机的IP地址。

- 授权服务端口：License Server授权服务端口号，缺省为“5555”。

- 客户端名称：License Server中设置的客户端名称。

- 客户端密码：License Server中设置的客户端名称对应的密码。

· License配置时填写的用户名和密码必须为在License Server中创建的客户端的名称和密码。

· 进行License Server配置时，单击按钮后，若无法连接到License Server，会弹出错误提示信息，此时则需要检查输入是否正确或者License Server是否正常运行。

· 当已使用的License Server信息（比如：IP地址、客户端名称等）有变化时，可执行更新配置的操作重新获取授权信息。

¡ 授权信息

管理页面和License Server定期通信更新授权状态，授权信息栏可查看当前系统中授权使用情况。当License Server上的授权信息变更时，单击按钮可手动刷新当前授权信息列表。部分参数说明如下：

- 授权名称：从License Server获取到的授权名称。单击图标可查看此条授权的详细信息（比如：产品条码、授权类型、授权数量、总授权天数、剩余授权时间等）。

- 获得授权：从License Server获取到的授权状态。对于数量型授权，该值为实际获取的授权数量；对于功能型授权，该值为YES（获取授权成功）或NO（获取授权失败）。

- 使用授权：对于数量型授权，该值表示已经使用的授权数量；对于功能型授权，该值为空。

对于大数据集群的数量型授权，当可用授权不足时，会影响“新建集群”、“集群扩容”等操作的进行。

5.2 添加浏览器安全证书

· 由于DataEngine大数据平台管理系统仅支持通过https协议访问，所以需要为浏览器添加授权证书以保证安全访问。如果没有执行此步骤，在浏览器访问时，选择“继续前往（不安全）”，也可以访问DataEngine大数据平台管理系统。

· DataEngine证书在下载前和证书安装后，均需要强制清除浏览器缓存及重启浏览器。

· DataEngine大数据平台管理系统访问不受信，若安装证书后仍然不受信处理方法请参见9 11. 章节。

如果浏览器中以前没有导入过DataEngine证书或需要更新DataEngine证书时，均需要获取最新的证书。

以Chrome 95浏览器为例，添加安全证书的步骤如下：

(1) 在浏览器中输入DataEngine大数据平台管理系统访问地址，如图5-2所示，弹出连接不安全的提示，此时建议在浏览器中导入DataEngine的安全证书。

图5-2 登录DataEngine大数据平台管理系统（不安全）

(2) 下载DataEngine安全证书

a. 在浏览器中输入DataEngine大数据平台管理系统访问地址的位置，查看“不安全”的网站信息，单击“证书（无效）”链接出现证书弹窗，如图5-3所示。

图5-3 查看访问不安全详请

b. 在证书弹窗中，查看[证书路径]页签，选择根证书，并单击按钮出现该证书弹窗。在该证书弹窗中选择“详细信息”页签，单击按钮进入证书导出向导弹窗，如图5-4所示。

图5-4 查看DataEngine根证书详细信息并导出

c. 在证书导出向导弹窗中，单击选择导出文件格式，勾选“DER编码二进制X.509(.CER) (D)”，如图5-5所示。

图5-5 配置证书导出后的文件格式

d. 继续单击按钮，配置要导出的文件名。单击按钮，选择文件的存储位置并输入文件名称，配置完成后单击按钮，如图5-6所示。

图5-6 配置要导出的文件名

e. 返回证书导出向导窗口后，单击即可启动证书导出，若图5-7所示。

图5-7 启动证书导出

f. 导出完成后单击按钮提示“导出成功”，如图5-8所示。

图5-8 DataEngine证书导出完成

(3) 导入DataEngine安全证书

a. 选中导出的根证书，右键选择“安装证书”，进入证书导入向导，如图5-9所示。

图5-9 启动安装根证书

b. 在证书导入向导弹窗中，单击选择证书存储。勾选“将所有的证书放入下列存储”，单击按钮进入选择证书存储弹窗，勾选“显示物理存储区”后，选择受信任的根证书颁发机构下的本地计算机，单击按钮完成选择，如图5-10所示。

图5-10 配置证书存储

c. 返回证书导入向导窗口后，单击即可启动证书导入，如图5-11所示。

图5-11 启动证书导入

d. 导入完成后单击按钮提示“导入成功”，如图5-12所示。

图5-12 DataEngine证书导入完成

(4) DataEngine证书导入成功后，重新启动浏览器，输入DataEngine大数据平台管理系统访问地址，即可实现受信任的访问进入，如图5-13所示。

图5-13 登录DataEngine大数据平台管理系统（安全）

6 集群创建后检查

集群创建完成后，对应的大数据集群同步部署完成，进入大数据平台管理系统，可检查集群、主机和组件的当前情况，以确保大数据集群状态正常。

6.1 集群巡检

· 集群巡检支持对集群、主机、组件进行检查，系统内置了多种检查项和检查规则，详情请以实际报告中的检查项为准。

· 同一时期集群仅支持执行一次巡检操作，巡检执行结束后支持在线查看报告或导出报告，报告展示每个检查项的巡检结果、结果状态和修复建议等。

访问大数据平台管理系统，可检查集群的当前状态，步骤如下：

(1) 在运维管理的左侧导航树中选择[巡检管理]，进入巡检管理页面。

(2) 在巡检管理页面，支持手动巡检和自动巡检两种方式，其中：

¡ 手动巡检：单击按钮，会立即对集群执行巡检操作。

¡ 自动巡检：单击按钮，通过“动态巡检”配置项可选择集群是否开启自动巡检功能。若选择为集群开启自动巡检，则需要配置自动巡检的重复策略和调度时间，配置完成后单击按钮，集群即可启动自动巡检功能，在指定时间对集群执行巡检操作。

(3) 集群执行巡检操作时，巡检内置多个检查项，依次执行直至全部执行结束后，才可查看或导出巡检报告。

图6-1 集群巡检

(4) 集群巡检结束后，各个巡检项的结果状态需在巡检报告中查看，巡检报告支持在线查看或导出查看，如图6-2和图6-3所示。根据本次集群巡检项的结果状态进行综合分析后可得到巡检结果，分为以下4种情况：

¡ 合格：所有巡检项结果状态全部合格

¡ 建议：巡检项结果状态中含有至少1条建议，且无告警和错误

¡ 告警：巡检项结果状态中含有至少1条告警，且无错误

¡ 错误：巡检项结果状态中含有至少1条错误

图6-2 在线查看巡检报告

图6-3 导出查看巡检报告

6.2 检查主机 6.2.1 主机运行状态检查

访问大数据平台管理系统，可检查集群中主机运行状态，步骤如下：

(1) 在顶部导航栏选择[云服务/大数据计算/大数据平台DataEngine]菜单项，进入大数据平台DataEngine的管理页面。

(2) 在集群管理页面，单击集群列表中某集群对应的按钮，可直接跳转至大数据平台管理系统。

(3) 在大数据平台管理系统选择[集群管理]，进入集群列表页面，单击集群名称可跳转至集群详情页面。

(4) 在集群详情页面的[主机]页签，可查看集群中的主机列表及主机运行状态。检查范围包括：

¡ 检查部署的大数据集群中所有主机节点是否都在主机列表中。

¡ 检查所有主机状态是否都正常。

- 若运行状态为“在线”，则表示主机正常。

- 若运行状态为“离线”，则表示主机已关机或存在其他故障，需要检查。

图6-4 主机运行状态检查

6.3 检查组件 6.3.1 组件存储路径检查

根据现场磁盘分区方案和挂盘方案的不同，组件安装完成后，必须对各组件的数据目录配置结果进行检查，否则组件可能会使用异常。关于各组件的数据目录对应配置项的检查说明，详情请参见9 2. 章节。

6.3.2 组件运行状态检查

访问大数据平台管理系统，检查集群中组件运行状态的步骤如下：

(1) 在顶部导航栏选择[云服务/大数据计算/大数据平台DataEngine]菜单项，进入大数据平台DataEngine的管理页面。

(2) 在集群管理页面，单击集群列表中某集群对应的按钮，可直接跳转至大数据平台管理系统。

(3) 在大数据平台管理系统选择[集群管理]，进入集群列表页面，单击集群名称可跳转至集群详情页面。

(4) 在集群详情页面的[组件]页签，选择业务组件或系统组件，可查看集群中的组件列表及组件运行状态。检查范围包括：

¡ 检查部署的大数据集群中已安装的所有组件是否都在组件列表中。

¡ 检查所有组件状态是否都正常。

图6-5 组件运行状态检查

6.3.3 组件检查

· 大数据集群中可以安装多种类型的大数据组件，支持执行组件检查操作，但是各个组件的检查方案不同，详情请参见大数据平台组件用户手册。

· 本章节以HDFS组件检查为例，介绍组件检查方法。

执行HDFS组件检查时，会向HDFS上传测试文件并检查HDFS文件系统的UI页面响应，同时检测HDFS相关进程的运行状态，若HDFS组件检查成功则表示向HDFS上传文件和页面响应正常，且各进程运行正常。

(1) 在顶部导航栏选择[云服务/大数据计算/大数据平台DataEngine]菜单项，进入大数据平台DataEngine的管理页面。

(2) 在集群管理页面，单击集群列表中某集群对应的按钮，可直接跳转至大数据平台管理系统。

(3) 在大数据平台管理系统中，进行组件检查的方式有以下三种，任选其一即可：

¡ 在集群管理的左侧导航树中选择[集群列表]，进入集群列表页面，单击某集群名称可跳转至对应的集群详情页面。

- 在集群详情页面选择[组件]页签，单击组件列表中某组件对应的按钮。

- 在集群详情页面选择[组件]页签，单击组件列表中某组件名称进入组件详情页面，在右上角组件操作的下拉框中选择按钮。

¡ 在组件管理的组件详情页面右上角组件操作的下拉框中选择按钮。

(4) 然后在弹窗中进行确定后，即可对该组件进行检查。

(5) 组件检查结束后，检查窗口中会显示组件检查成功或失败的状态。如图6-6所示，表示组件检查成功，可正常使用。

图6-6 组件检查

(6) 组件检查结束后，在组件详情页面单击按钮，进入操记录窗口。可查看“HDFS Service Check”组件操作执行的详细信息以及操作日志详情，根据操作日志可判断组件检查的具体情况。

图6-7 组件检查日志详情

7 关于集群配置的说明 7.1 访问管理

禁止直接在后台操作大数据平台管理节点、集群节点的防火墙规则。

集群创建完成后，且集群状态为“运行中”时，在大数据平台管理系统的[运维管理/访问管理/防火墙管理]页面可对集群执行开启或关闭防火墙等相关管理操作。

在生产环境中，开启或关闭防火墙均为高危操作，会对集群的访问产生影响，请谨慎操作。关于防火墙管理的更多详情和注意事项请参见产品在线联机帮助。

7.2 禁用/启用root权限

· 禁用或启用root权限的功能，仅是针对root用户的ssh权限，并不会删除root用户或更改root用户的其他权限。

· 执行禁用root权限操作后，系统会自动在集群内所有主机上创建sysadmin用户，并为其配置sudo权限。

· 注意：部分集群操作必须以root用户执行（即root权限启用时），比如：系统升级、组件升级。

集群创建完成后，且集群状态为“运行中”时，主机节点会被大数据集群占用，为避免主机root用户误操作带来的安全风险，根据使用需要，在大数据平台管理系统的[运维管理/访问管理/root用户管理]页面可对集群内主机执行禁用或启用root权限的操作。关于root权限的更多操作详情和注意事项请参见产品在线联机帮助。

7.3 配置组件快速链接

· 在大数据集群中，部分组件支持快速链接功能，可跳转至对应的UI页面查看组件详情。

· 不同组件支持的快速链接数量和类别不同，详情请以实际页面为准。

· 对于Kafka组件，访问其快速链接Kafka Eagle的方式与其他组件均不同，即：无论集群是否开启Kerberos，访问Kafka的快速链接时，均只能通过用户名（admin）和密码（CloudOS5#DE3@KE）进行登录，其他用户名/密码均无法访问。

· 对于Elasticsearch组件，访问其快速链接Kibana的方式与其他组件均不同，即：无论集群是否开启权限管理，均需要输入用户名和密码进行认证。当集群开启权限管理时，对于集群超级用户，输入用户名和密码可直接访问Kibana；对于集群普通用户，需要拥有所有索引的“all”权限，然后输入用户名和密码才可访问Kibana。集群不开权限管理时，输入用户名和密码即可访问Kibana。

大数据集群部署完成后，需要修改本地hosts文件，用以确保组件的快速链接页面通过域名访问能够顺利跳转。修改本地hosts文件的方法如下：

(1) 登录大数据集群中任意一节点，查看当前集群的hosts文件（Linux环境下位置为/etc/hosts）。

(2) 将集群的hosts文件信息添加到本地hosts文件中。若本地电脑是Windows环境，则hosts文件位于C:\Windows\System32\drivers\etc\hosts，修改该hosts文件并保存。

(3) 在本地hosts文件中配置主机域名信息完成后，此时访问组件（Kafka、Elasticsearch除外）的快速链接：

¡ 若集群没有开启Kerberos认证，则此时可直接跳转访问对应的UI页面。

¡ 若集群开启了Kerberos认证，则需要输入用户名和密码进行认证（可以使用集群创建时填写的超级用户，也可以使用用户管理中创建的用户），然后才可跳转访问对应的UI页面。

7.4 日志管理

· 新建大数据集群时，若没有开启“组件日志”，则集群不可使用[日志管理/组件日志]功能。若在新建集群时没有开启组件日志，则后续在使用过程中将再也无法开启，且一旦开启将再也无法关闭。

· 新建Hadoop集群时，若没有开启“安全管理/审计日志”，则集群不可使用[日志管理/审计日志]功能。若在新建集群时没有开启审计日志，则后续在使用过程中将再也无法开启，且一旦开启将再也无法关闭。

· [日志管理/日志配置]功能与创建集群时是否开启组件日志无关。

· 仅集群类型为hadoop的集群支持日志管理功能，集群类型为Elasticsearch/Solr/Kafka/Redis的集群不支持。

· 关于日志管理模块功能的配置或使用详情请参见产品在线联机帮助。

大数据平台管理系统的日志管理模块展示大数据平台DataEngine中已部署的集群中产生的日志信息（包括组件日志和审计日志），支持对日志信息进行搜索，同时还可对集群中对应组件的日志存储目录等进行配置。

7.5 安全管理

关于安全管理模块功能的配置或使用详情请参见产品在线联机帮助。

表7-1 开启安全管理后提供的功能说明

功能

说明

Kerberos认证

Kerberos认证可以提供用户安全认证方式功能。

【说明】关于Kerberos认证开启后，对使用的影响详情请参见7.5.1 开启Kerberos

审计日志

审计日志提供操作审计和密钥审计，并提供界面化的查询功能。

【说明】关于审计日志开启后，对使用的影响详情请参见7.5.2 开启审计日志

权限与密钥管理

权限与密钥管理可以提供数据的访问权限控制和HDFS密钥管理工具。

【说明】关于权限与密钥管理开启后，对使用的影响详情请参见7.5.3 开启权限和密钥管理

7.5.1 开启Kerberos

· 新建大数据集群时，Kerberos认证一旦开启将再也无法关闭或卸载。

· 开启Kerberos后，业务端需要进行安全认证适配。所以在生产环境中，部署集群前，请务必确认清楚是否要开启Kerberos。

· 独立集群可选择是否开启Kerberos认证。租户集群缺省开启Kerberos认证功能（不支持关闭）

集群开启Kerberos认证后，可能受影响的操作如下：

· 对于租户集群，租户的用户需要通过认证才可使用租户中的组件资源。

· 对于独立集群，集群超级用户和普通用户在拥有相关权限的基础上，均需要通过认证才可访问集群。

· 访问集群中某组件的快速链接时，必须通过用户名/密码进行认证。

· 组件使用（管理/业务）方面的影响，详情请参见DataEngine相关组件手册。

7.5.2 开启审计日志

新建Hadoop集群时，若没有开启审计日志，则集群不可使用审计日志功能，且后续在使用过程中将再也无法开启。

大数据平台管理系统的[日志管理/审计日志]功能包括操作审计和密钥审计，其中：

· 操作审计页面展示访问HDFS、YARN、HBase、Kafka、Hive、Solr、Elasticsearch、DLH等组件的日志信息。

· 密钥审计页面展示对密钥的操作日志信息。

【示例】

操作审计提供某用户在某时刻以某种操作访问某组件上的某资源，以及访问是否通过的日志信息。比如：

(1) 图7-1中日志显示：2019-10-28 16:19:02，lining用户在10.121.36.22机器上对HBase组件的命名空间lnns1执行删除操作，操作失败。

图7-1 操作审计日志

(2) 图7-2中日志显示：2019-10-29 19:39:22，keyadmin用户在10.121.65.244机器上通过密钥key执行getmetadata操作，操作成功。

图7-2 密钥审计日志

7.5.3 开启权限和密钥管理 1. 权限管理

· 新建大数据集群时，若没有开启权限与密钥管理，则集群不可使用角色管理功能。

· 新建大数据集群时，若没有开启权限与密钥管理，则后续在使用过程中将再也无法开启。

· 关于权限管理模块功能的配置或使用详情请参见产品在线联机帮助。

权限管理是安全管理的重要组成部分，在开启权限与密钥管理的集群中，权限基于角色进行统一管理，角色是权限的集合。一个角色可以同时拥有多个组件的资源权限，例如：HDFS某些目录的权限、HBase某个表的权限等。以角色作为权限集合的优势在于：

· 当多个用户对同一组件的同一资源有相同的权限时，只需要为这些用户绑定拥有该资源权限的角色，而不用分别为这些用户重复添加相同的权限。

· 对某一角色的权限进行修改后，所有绑定该角色的用户将会被统一修改权限，这样可以更加灵活方便的对用户进行权限管理。

当前版本提供面向Hadoop组件资源的统一权限管理平台，系统中仅部分组件支持权限控制，详情请以实际页面为准。

2. 密钥管理

· 新建大数据集群时，若没有开启权限与密钥管理，则集群不可使用密钥管理功能。

· 新建大数据集群时，若没有开启权限与密钥管理，则后续在使用过程中将再也无法开启。

· 在当前版本中，仅HDFS超级用户（hdfs）可创建加密区。

· 关于密钥管理模块功能的配置或使用详情请参见产品在线联机帮助。

密钥管理是将多个集群中的密钥进行统一管理，提供密钥的创建、删除、授权等操作。在HDFS中使用密钥创建加密区，可以实现对数据的加密功能。

密钥管理使用指导如图7-3所示，流程说明如表7-2所示。

图7-3 密钥管理使用指导

表7-2 密钥管理使用指导说明

步骤

说明

访问大数据集群

用户在后台访问大数据集群（示例用户user01）

是否使用HDFS加密区

若需要创建HDFS加密区（示例加密区/zone）存储需要加密的数据

则需要使用“密钥管理”功能

进入密钥管理

新建密钥

在[密钥管理/密钥]页签，为对应集群新增密钥（示例key01）

新建密钥授权

绑定密钥资源

新增密钥授权时，需要绑定密钥资源（示例密钥key01）

为用户配置权限

新增密钥授权时，根据需要，可为不同用户配置不同权限（示例为用户user01绑定密钥key01，并为其授予解密加密区的权限）

通过拥有权限的用户在后台操作/使用密钥

拥有密钥权限的用户可在后台执行对应操作，比如通过密钥向加密区上传文件或查看加密文件

【注意】当前版本中，仅HDFS超级用户（hdfs）可创建加密区

示例：hdfs用户可通过密钥key01创建加密区/zone。因用户user01已绑定解密加密区的权限，所以用户user01可通过密钥key01查看加密区/zone的里的文件

7.6 租户管理

关于租户管理模块功能的配置或使用详情请参见产品在线联机帮助。

多个租户之间共享一套集群，共享网络和集群资源，并且不同租户之间保证资源隔离。

· 新建租户

普通用户在自己创建的租户集群中申请租户时，无需审批，会直接触发新增租户的操作。普通用户在其他用户创建的租户集群中申请租户时，则需要走流程审批，待审批人审批通过后才能触发新增租户的操作。管理员用户新增租户时，无需审批，会直接触发新增租户的操作。

· 租户管理操作

普通用户在自己创建的租户集群中执行租户续期、资源扩缩容、配置YARN动态策略管理操作时，无需审批，会直接触发相关操作。普通用户在其他用户创建的租户集群中执行租户续期、资源扩缩容、配置YARN动态策略管理操作时，则需要走流程审批，待审批人审批通过后才能触发相关操作。管理员用户执行租户续期或资源扩缩容操作时，无需审批，会直接触发相关操作。

在当前版本中，仅部分组件支持租户操作，支持的组件类型和租户策略如表7-3所示。

表7-3 支持的组件类型和资源共享策略

组件

租户的策略

HDFS

资源对应一个或多个限额的存储目录

YARN

资源对应一个资源队列，每个资源队列提供配额的CPU和内存资源

Hive

资源对应一个或多个限额的database，每个database具有独立的存储资源

HBase

资源对应一个或多个限额的命名空间和若干个RegionServer组

Kafka

资源对应一个或多个Topic，Topic可设置副本数和存储空间

Spark

通过YARN的租户来实现对计算资源的控制

Flink

通过YARN的租户来实现对计算资源的控制

Elasticsearch

资源对应一个或多个索引模板，一个索引模板默认对应集群中一个或多个实例资源

【说明】Elasticsearch资源共享策略支持修改为“资源对应一个或多个索引模板，一个索引模板默认对应集群中一个或多个主机资源”，关于修改方式以及修改后如何使用详情请参见Elasticsearch组件手册

租户有时间期限，新建租户成功后，指定用户在指定时间期限内可使用本租户的组件资源。租户内组件资源的具体使用方法，与集群组件资源的使用方式完全一样。

8 卸载

卸载包括独立删除集群、卸载集群中组件或进程、独立卸载数据工厂。

8.1 删除集群

删除集群表示该集群对应所有主机资源被回收。

· 在生产环境中，删除集群功能为高危操作，集群的所有主机将被销毁且不可恢复集群内所有组件数据均会被同步删除），不可回退或暂停，请谨慎使用。

· 当集群中有正在运行的任务时，删除集群后该集群中的所有任务均会被同步删除。

· 若集群为租户模式，在租户集群中若已创建租户，则删除集群后，该租户集群中对应的租户会一起被删除。

· 当集群中安装数据工厂时，删除集群后该集群中的数据工厂会被同步删除。

集群在使用过程中，根据实际需要，可执行删除集群的操作。

(1) 在顶部导航栏选择[云服务/大数据计算/大数据平台DataEngine]菜单项，进入大数据平台DataEngine的管理页面。

(2) 在集群管理页面，单击某集群对应的按钮并在弹窗中进行确定后，还需根据弹窗中的提示进行相关操作（比如：输入集群名和集群root密码进行二次确认），然后即可直接删除集群，此时集群中的所有主机资源都会被CloudOS IaaS回收。

图8-1 删除集群

8.2 卸载集群中组件或进程 8.2.1 删除组件

删除组件表示针对某个组件的完整卸载，即删除该组件在集群所有主机节点上的相关进程。

· 在生产环境中，删除组件功能不可回退或暂停，请谨慎使用。

· 在大数据集群中，对于业务组件，仅部分组件支持删除操作，详情请以实际页面为准。

· 大数据集群中，系统组件为创建集群时缺省安装的组件，不支持单独执行添加或删除操作。

· 在不同状态下，删除组件操作可能处于不可执行状态。比如：处于“已启动”状态下的组件，需要先停止组件后再执行删除组件操作，删除组件后数据不会清理。

· 在删除组件时，需要考虑各组件之间的依赖关系。比如：Spark或Impala依赖Hive，因此删除Hive时需要首先删除Spark和Impala。

· 若待删除组件正在被数据工厂的数据源所依赖，则删除组件后数据工厂对应的数据源将同步不可用。

集群在使用过程中，根据实际需要，可执行删除组件的操作。

(1) 在顶部导航栏选择[云服务/大数据计算/大数据平台DataEngine]菜单项，进入大数据平台DataEngine的管理页面。

(2) 在集群管理页面，单击集群列表中某集群对应的按钮，可直接跳转至大数据平台管理系统。

(3) 在大数据平台管理系统中，删除组件的方式有以下三种，任选其一即可：

¡ 在集群管理的左侧导航树中选择[集群列表]，进入集群列表页面，单击某集群名称可跳转至对应的集群详情页面。

- 在集群详情页面选择[组件]页签，单击组件列表中某组件对应的按钮。

- 在集群详情页面选择[组件]页签，单击组件列表中某组件名称进入组件详情页面，在右上角组件操作的下拉框中选择按钮。

¡ 在组件管理的组件详情页面右上角组件操作的下拉框中选择按钮。

(4) 然后按照弹窗中的提示进行相关操作后，即可删除该组件。

图8-2 删除组件（方式一）

图8-3 删除组件（方式二&三）

8.2.2 删除进程

删除进程表示仅在大数据集群的某个主机节点上删除此进程。

· 在生产环境中，删除进程功能不可回退或暂停，请谨慎使用。

· 在大数据集群中，仅部分组件的部分进程支持删除操作，详情请以实际页面为准。

· 在不同状态下，删除进程操作可能处于不可执行状态，详情请以实际页面为准。比如：处于“已启动”状态下的进程，不可执行删除操作，此时需先停止进程才可执行删除操作。

集群在使用过程中，根据实际需要，可执行删除进程的操作。

(1) 在顶部导航栏选择[云服务/大数据计算/大数据平台DataEngine]菜单项，进入大数据平台DataEngine的管理页面。

(2) 在集群管理页面，单击集群列表中某集群对应的按钮，可直接跳转至大数据平台管理系统。

(3) 在大数据平台管理系统中，删除进程的方式有以下四种，任选其一即可：

¡ 在[集群管理/集群列表]页面，单击某集群名称可跳转至对应的集群详情页面。在集群详情页面选择[组件]页签，单击组件列表中某组件名称进入组件详情页面。在组件详情页面选择[部署拓扑]页签，单击进程列表中某进程对应的按钮。

¡ 在[集群管理/组件管理]的组件详情页面选择[部署拓扑]页签，单击进程列表中某进程对应的按钮。

¡ 在[集群管理/集群列表]页面，单击某集群名称可跳转至对应的集群详情页面。在集群详情页面选择[主机]页签，单击主机列表中某主机名进入主机详情页面。在主机详情页面选择[进程列表]页签，单击进程列表中某进程对应的按钮。

¡ 在[集群管理/主机管理/主机监控]页面的[主机列表]页签，单击某主机名可跳转至对应的主机详情页面。在主机详情页面选择[进程列表]页签，单击进程列表中某进程对应的按钮。

(4) 然后按照弹窗中的提示进行相关操作后，即可删除该组件。

图8-4 删除进程（方式一&二）

图8-5 删除进程（方式三&四）

8.3 卸载数据工厂

· 若系统中已安装了数据工厂，在后续使用过程中数据工厂不再需要，则可以单独执行卸载数据工厂的操作。

· 数据工厂的卸载脚本仅在DataEngine大数据平台管理系统的第一个管理节点上存在，在集群管理页面单击集群名进入集群详情页面，在主机列表中查看包含“master-1”关键字的主机名即为DataEngine大数据平台管理系统的第一个管理节点。

卸载数据工厂的步骤如下：

(1) 登录DataEngine大数据平台管理系统的第一个管理节点，在/opt/DataEngine-Package/目录中，单独执行卸载数据工厂的脚本，命令如下：

sh uninstall_df.sh

· 卸载数据工厂时，若数据工厂中存在数据源则卸载不会被允许。

· 卸载脚本执行过程中，会出现相关的询问信息（比如：输入主机root密码），请根据提示输入信息后继续执行。

(2) 卸载成功后，仅数据工厂模块功能将不可用，大数据集群等其他功能均可正常使用。此时在解压文件夹下重新执行sh install_df.sh即可重新启动安装。

9 常见问题解答 1. 大数据集群可部署的业务组件有哪些？

表9-1 大数据集群业务组件列表

组件名

版本号

HDFS

3.0.0

MapReduce

3.0.0

YARN

3.0.0

ZooKeeper

3.4.5

Hive

2.1.1

Spark

2.4.0

Presto

1.5.0

DLH

1.0.0

Impala

3.4.0

Sqoop

1.4.7

HBase

2.1.0

HBase Indexer

1.5

Oozie

5.1.0

Redis

6.2.1

Storm

1.2.1

Kafka

2.7.2

Flink

1.13.6

Flume

1.9.0

Elasticsearch

7.10.0

Solr

7.4.0

2. 根据现场磁盘分区方案和挂盘方案的不同，安装组件时，可能受影响的组件以及各组件必须检查的配置项有哪些？

由于现场磁盘分区方案和挂盘方案的不同，组件安装完成后，必须按照表9-2所示要求进行检查，否则组件可能使用异常。

表9-2 安装组件后需要检查的配置项

组件

是否需要检查

被影响的配置项

如何解决

HDFS

是（配置项的参数值默认选择3个挂载路径）

dfs.namenode.name.dir

此目录为数据目录，检查此配置项的值时，需关注：

· 不允许存在非数据目录

· 若现场数据目录是自定义的，则需要配置为对应的数据目录

是（配置项的参数值默认使用全部挂载路径）

dfs.datanode.data.dir

未开启高可用时，需要检查该配置项（配置项的参数值默认使用全部挂载路径）

dfs.namenode.checkpoint.dir

此目录为数据目录，检查此配置项的值时，需关注：

· 不允许存在非数据目录

· 若现场数据目录是自定义的，则需要配置为对应的数据目录

开启高可用时，需要检查该配置项（配置项的参数值默认选择1个挂载路径）

dfs.journalnode.edits.dir

此目录为数据目录，检查此配置项的值时，需关注：

· 不允许存在非数据目录

· 若现场数据目录是自定义的，则需要配置为对应的数据目录

YARN

是（配置项的参数值默认使用全部挂载路径）

yarn.nodemanager.local-dirs

此目录为数据目录，用于存放应用程序的运行依赖包等信息。检查此配置项的值时，需关注：

· 不允许存在非数据目录

· 若现场数据目录是自定义的，则需要配置为对应的数据目录

yarn.nodemanager.log-dirs

是（配置项的参数值默认使用某一个挂载路径）

yarn.timeline-service.leveldb-state-store.path

此目录为数据目录，用于记录应用程序运行状态等信息。检查此配置项的值时，需关注：

· 不允许存在非数据目录

· 若现场数据目录是自定义的，则需要配置为对应的数据目录

yarn.timeline-service.leveldb-timeline-store.path

Kafka

是（配置项的参数值默认使用全部挂载路径）

log.dirs

此目录为数据目录，检查此配置项的值时，需关注：

· 不允许存在非数据目录

· 若现场数据目录是自定义的，则需要配置为对应的数据目录

ElasticSearch

是（配置项的参数值默认使用全部挂载路径）

path.data

此目录为数据目录，检查此配置项的值时，需关注：

· 不允许存在非数据目录

· 若现场数据目录是自定义的，则需要配置为对应的数据目录

· 请确保Easticsearch用户具备数据目录的读写权限

Solr

是（配置项的参数值默认使用某一个挂载路径）

solr.data.home

此目录为数据目录，检查此配置项的值时，需关注：

· 不允许存在非数据目录

· 若现场数据目录是自定义的，则需要配置为对应的数据目录

· 仅支持单路径挂载使用，所以只允许配置一个数据目录

Zookeeper

是（配置项的参数值默认使用某一个挂载路径）

dataDir

此目录为数据目录，检查此配置项的值时，需关注：

· 不允许存在非数据目录

· 若现场数据目录是自定义的，则需要配置为对应的数据目录

Storm

是（配置项的参数值默认使用某一个挂载路径）

storm.local.dir

此目录为Storm使用的本地文件系统目录，用于保存少量状态信息。检查此配置项的值时，需关注：

· 不允许存在非数据目录

· 若现场数据目录是自定义的，则需要配置为对应的数据目录

· 建议此目录为Storm服务独立使用。如果该目录同时被其他服务使用，需手动修改为其他路径

Redis

是（配置项的参数值默认使用某一个挂载路径）

redis.dir

此目录为数据目录，检查此配置项的值时，需关注：

· 不允许存在非数据目录

· 若现场数据目录是自定义的，则需要配置为对应的数据目录

· 仅支持单路径挂载使用，所以只允许配置一个数据目录

Impala

是（配置项的参数值默认使用全部挂载路径）

impala_scratch_dir

此目录为数据目录，检查此配置项的值时，需关注：

· 不允许存在非数据目录

· 若现场数据目录是自定义的，则需要配置为对应的数据目录

Oozie

是（配置项的参数值默认使用某一个挂载路径）

oozie_data_dir

此目录为数据目录，检查此配置项的值时，需关注：

· 不允许存在非数据目录

· 若现场数据目录是自定义的，则需要配置为对应的数据目录

Infra Solr

是（配置项的参数值默认使用某一个挂载路径）

infra_solr_datadir

此目录为数据目录，检查此配置项的值时，需关注：

· 不允许存在非数据目录

· 若现场数据目录是自定义的，则需要配置为对应的数据目录

3. 组件的日志信息在哪里查看？

表9-3 组件日志路径说明

组件

日志路径

HDFS

/var/de_log/hadoop/user_hdfs

MapReduce2

HistoryServer日志路径：/var/de_log/hadoop-yarn/user_mapred/和/var/de_log/hadoop-mapreduce/mapred/

YARN

/var/de_log/hadoop-yarn/user_yarn

【说明】上述的日志是YARN本身的日志。另外：

· 执行在YARN上的应用日志，可以通过YARN的UI界面查看，日志文件实际存储位置默认是在HDFS上，默认路径为/app-logs

· 如果日志不聚合，可以配置yarn.log-aggregation-enable为false

· 内嵌的HBase日志路径为：/var/de_log/hadoop-yarn/embedded-yarn-ats-hbase，在timeline安装的节点上可看到（前提条件：配置项use_external_hbase、is_hbase_system_service_launch的值均为false）

Spark

/var/de_log/spark2和/var/de_log/spark2/user_spark/

【说明】上述的日志是Spark的HistoryServer和ThriftServer的日志。另外：

· 使用Spark客户端（如使用spark-sql）执行任务时，日志存放路径为/var/de_log/spark2/user_${user.name}/，其中${user.name}是指执行任务的用户名

Presto

Presto跨源分析及交互式查询服务日志路径：/var/de_log/presto

Atlas

Atlas元数据服务日志路径：/var/de_log/atlas

DLH

· DLH Server服务的日志路径：/var/de_log/dlh/hive

· DLH流SQL服务的日志路径：/var/de_log/flink-sql-gateway/user_hdfs

Hive

/var/de_log/hive

Ranger

/var/log/ranger/和/var/de_log/ranger/

【说明】开启权限和密钥管理时，集群内部会安装该组件

Knox

/var/log/knox/

【说明】在Hadoop集群中，开启Kerberos认证时，创建的集群时会安装该组件，用于组件Web的单点登录

Elasticsearch

/var/de_log/elasticsearch

Solr

/var/de_log/solr

Redis

/var/de_log/redis

Impala

/var/de_log/impala/

HBase

/var/de_log/hbase/user_hbase

HBase Indexer

/var/de_log/hbase-indexer/user_hbase

Kafka

/var/de_log/kakfa/user_${user.name}/，其中${user.name}是指执行任务的用户名

ZooKeeper

/var/de_log/zookeeper/user_{user.name}/，其中${user.name}是指执行任务的用户名

Storm

/var/de_log/storm

Flink

· Flink启动日志路径：/var/de_log/flink/user_${user.name}/，其中${user.name}是指执行任务的用户名

· Flink任务运行日志路径，可以通过YARN的UI界面查看

【说明】Flink是Client服务，如果在上述路径未找到日志，请在客户端控制台获取

Sqoop

/var/log/sqoop

【说明】Sqoop是Client服务，如果在上述路径未找到日志，请在客户端控制台获取

Infra Solr

/var/log/ambari-infra-solr

Kerberos

/var/log/krb5kdc.log 和 /var/log/kadmind.log

Oozie

/var/de_log/oozie

Flume

/var/de_log/flume

4. 常用组件的数据存放位置在哪里？

表9-4 组件数据的存放位置

组件

存放位置

说明

ZooKeeper

配置项dataDir的值

存放ZooKeeper数据

HDFS-JournalNode

配置项dfs.journalnode.edits.dir的值

存放HDFS的JournalNode数据

HDFS-NameNode

配置项dfs.namenode.name.dir的值

存放HDFS的NameNode数据

HDFS-DataNode

配置项dfs.datanode.data.dir的值

· 推荐把每个物理磁盘挂载在/opt/disknn（nn为1至2位的数字）上不同的挂载点

· 存放HDFS的数据

Elasticsearch

配置项path.data的值

· 推荐把每个物理磁盘挂载在/opt/disknn（nn为1至2位的数字）上不同的挂载点

· 存放Elasticsearch的数据

· 推荐使用SSD，并且每个分区下的大小要相等，否则盘剩余空间较大的I/O压力会过大

Solr

配置项solr.data.home值

· 基于性能考虑，Solr的索引数据可以存放在本地磁盘；每个节点上的Solr实例将各自的home目录放置到独立磁盘上，用以存放Core的元数据和索引数据

· Solr的索引数据和元数据存放在HDFS，通过设定solr.in.sh的配置参数的值来决定是否存放在HDFS上，默认不存放。如选择存放在HDFS中，则Solr会依赖HDFS（在此场景下，Solr无需配置数据盘），否则不依赖

Storm

配置项storm.local.dir的值

存放少量的中间状态数据

Kafka

配置项log.dirs的值

存放Kafka的数据目录

Redis

配置项redis.dir的值

存放Redis的业务数据，数据存储目录默认为/var/redis，用户可根据实际情况进行修改（但不建议存储在系统盘上）

5. 大数据平台缺省以Master节点的本地时间作为基准时间，若出现时间不同步的情况的排查方案

大数据平台缺省以CloudOS Plat主节点的本地时间作为基准时间。集群里的所有节点通过chrony基于NTP协议向该节点进行时钟校准，建议集群中所有节点与现场统一NTP服务器保持时钟校准。

(1) chrony的配置文件有如下两个：

¡ /etc/chrony.conf：负责chrony ntp配置项

¡ /etc/sysconfig/chronyd：负责系统system启动chrony时的传入参数

(2) chrony常用命令如下：

¡ 查看版本：chronyd --version

¡ 查看运行状态：systemctl status chronyd

¡ 查看同步状态（更多参数参见man手册）：chronyc sourcestats

(3) 若出现时间不同步的情况，排查方案如下：

a. 本机硬件时间问题，本机硬件时间会影响主机重启后的系统软件时间。若出现时间不同步的情况，请排查是否有主机重启。下面命令可校准本机硬件时间：

timedatectl set-timezone “Asia/Shanghai”

timedatectl status

date -s "20191119 19:35:00"

hwclock --systohc

hwclock --show

b. 大数据集群安装后的配置可以稳定准确校时，chrony配置保存安装后，配置值即可无需修改。若出现时间不同步的情况，请排查是否修改过chrony配置。

c. 如果自定义配置需要考虑：ntp校时算法会根据时钟差异决定校时步长，步长决定出现差异时重新回归同步需要的时间大小，过大的时钟差异会被认为异常不被校准。若出现时间不同步的情况，请排查chrony的配置文件修改是否合理。

d. 通常会配置chronyc -a makestep 辅助chrony校准时间，chronyc -a makestep为一次性校准时间，作为定时任务，在主机重启后或chronyd启动前执行，但是chronyc -a makestep任务无法解决chrony任务时间不同步问题。

6. 若安装集群时，没有同步选择安装数据工厂，在后续使用过程中又有数据工厂的需求，则补充安装数据工厂的方式是什么？

· 数据工厂的安装脚本仅在DataEngine大数据平台管理系统的第一个管理节点上存在，在集群管理页面单击集群名进入集群详情页面，在主机列表中查看包含“master-1”关键字的主机名即为DataEngine大数据平台管理系统的第一个管理节点。

· 如果此时集群禁用了root权限（参见7.2 章节），则后续再部署数据工厂时会提示请使用root用户进行部署。

单独安装数据工厂的步骤如下：

(1) 登录DataEngine大数据平台管理系统的第一个管理节点，在/opt/DataEngine-Package/目录中，单独执行安装数据工厂的脚本，命令如下：

sh install_df.sh

安装脚本执行过程中，会出现相关的询问信息（比如：输入主机密码），请根据提示输入信息后继续执行。

7. 在物理机环境中安装DataEngine大数据集群时，若出现组件启动时间过长，CPU占用率异常过高的情况，如何处理？

在物理机环境中安装DataEngine大数据集群时，若出现组件启动时间过长，CPU占用率异常过高的情况，可能是因为主机的CPU策略设置不为performance模式，处理步骤如下：

(1) 查看当前主机的CPU策略是否为performance，命令如下：

cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor

(2) 若查看结果不为performance，则需要修改cpu的资源策略为performance，命令如下：

for i in $(ls /sys/devices/system/cpu/*/cpufreq/scaling_governor);do echo performance > $i;done

8. 在云平台中新建大数据集群时，默认没有开启内外网映射访问，后续使用过程中若需要开启外网访问虚拟IP，如何操作？

当DataEngine管理系统开启SSO配置时，才需修改外网访问虚拟IP；若未开启，则可忽略此步骤。

(1) 分别登录安装DataEngine管理系统的2个管理节点（在集群管理页面单击集群名进入集群详情页面，在主机列表中查看包含“master”关键字的主机名即为DataEngine大数据平台管理系统的管理节点）。

(2) 在2个管理节点上分别修改/data/DataEngine/system/sso/scripts/restart_sso.sh文件。修改说明如图9-7所示，将文件中VIP_HOST的值修改为外网访问虚拟IP，修改完成后保存退出。

图9-1 修改SSO服务的VIP_HOST（DataEngine版本号仅为示例）

(3) 重启dataengine-sso容器，命令如下：

/data/DataEngine/system/sso/scripts/restart_sso.sh

其中：为系统数据库Mysql的密码，为系统数据库Redis的密码。若有重启dataengine-sso容器的需求，密码请联系H3C技术支持工程师获取。

9. DataEngine管理系统若需要对接认证通，此时需要配置认证通相关参数，如何操作？

· 当DataEngine管理系统需对接认证通时，才需修改认证通参数；若不对接，则可忽略此步骤。

· 若DataEngine管理系统需对接认证通，则部署前需在认证通应用管理中添加DataEngine应用，添加完成后获取应用的appID和appSecret参数。关于在认证通中添加DataEngine应用以及获取应用相关参数的方法详情请参见认证通相关使用手册。

(2) 在2个管理节点上分别修改/data/DataEngine/system/sso/scripts/restart_sso.sh文件。修改说明如图9-8所示，将文件中USE_RZT的值修改为True，APP_ID和APP_SECRET参数修改为认证通中DataEngine应用具体的参数，修改完成后保存退出。

图9-2 修改SSO服务的认证通参数（DataEngine版本号仅为示例）

(3) 重启dataengine-sso容器，命令如下：

/data/DataEngine/system/sso/scripts/restart_sso.sh

其中：为系统数据库Mysql的密码，为系统数据库Redis的密码。若有重启dataengine-sso容器的需求，密码请联系H3C技术支持工程师获取。

10. 若DataEngine大数据平台管理系统被扫描出存在CSRF（跨站点请求伪造）漏洞，如何处理？

修复CSRF（跨站点请求伪造）漏洞后，第三方调用DataEngine接口时，需要在HTTP请求Header中增加“Referer:https://vip/”配置，其中vip为DataEngine管理系统的虚拟IP。

修复CSRF（跨站点请求伪造）漏洞的步骤如下：

(2) 在2个管理节点上分别修改/data/DataEngine/system/webserver/configs/nginx.conf文件。修改说明如图9-3所示，在nginx.conf文件的server模块中增加如下内容：

¡ 增加valid_referers配置，配置值为DataEngine管理系统的虚拟IP和2个管理节点IP（IP之间以空格分隔）。

¡ 在location模块中增加invalid_referer判断（注意：只修改location，新增的invalid_referer判断内容与图9-3所示严格保持一致）。

(3) nginx.conf文件修改完成后，保存退出。

图9-3 修改nginx.conf配置文件

(4) 重启dataengine-webserver容器，命令如下：

/data/DataEngine/system/webserver/scripts/restart_webserver.sh

11. DataEngine大数据平台管理系统访问不受信，且安装证书后仍然不受信处理方法

【现象描述】

DataEngine大数据平台安装成功之后，因大数据平台使用的是自签证书，用户访问大数据平台管理系统时，浏览器不信任该证书信息，认为访问的是不安全的私密连接，从而对请求进行拦截，接口出现：failed net::ERROR_CERT_AUTHORITY_INVALID错误，导致无法访问。根据5.2 章节导入浏览器安全证书并重启浏览器后，再次访问仍然提示不安全连接，访问接口出现该错误。

【解决方法】

大数据平台管理系统访问地址的默认端口为：443，443作为https协议的标准端口，但是因大数据平台使用的自签证书，可能环境中存在拦截或对443端口限制，导致安装根证书后，浏览器仍然不信任该证书。因此，此时可在大数据平台安装成功之后，通过修改大数据平台管理系统访问地址的默认端口号的方式进行解决。

【处理步骤】

(1) 登录安装DataEngine管理系统的2个管理节点（在集群管理页面单击集群名进入集群详情页面，在主机列表中查看包含“master”关键字的主机名即为DataEngine大数据平台管理系统的管理节点）。在两个管理节点，分别执行以下操作（两个节点均需执行）。

(2) 修改system.cfg文件中的443端口号为自定义端口（例如18443），修改完成后保存，然后重启haproxy服务。命令如下：

vi /data/DataEngine/haproxy/conf/conf.d/system.cfg

sh /data/DataEngine/haproxy/restart_haproxy.sh

图9-4 修改system.cfg文件中的443端口号为自定义端口

(3) 修改nginx.conf 文件中的443端口号为自定端口号（例如18443，注意此端口必须与步骤(1)中自定义端口号保持一致），修改完成后保存，然后重启webserver服务。命令如下：

vi /data/DataEngine/system/webserver/configs/nginx.conf

sh /data/DataEngine/system/webserver/scripts/restart_webserver.sh

图9-5 修改nginx.conf 文件中的443端口号为自定端口号

(4) 以上配置全部修改完成后，通过DataEngine管理系统的URL新地址：https://:自定义端口号（例如：18443）重新访问DataEngine大数据平台管理系统，此时访问连接将变为安全的连接。

【本文地址】

公司简介

联系我们