hadoop性能优化

2023-04-13 06:03| 来源: 网络整理| 查看: 265

2019独角兽企业重金招聘Python工程师标准>>>

hadoop 集群性能优化 hadoop 层面性能调优&＃xff1a;

hadoop 层面性能调优 1. 守护进行内存调优

a&＃xff09;NameNode 和 DataNode 内存调整在 hadoop-env.sh 文件中

NameNode&＃xff1a; ExportHADOOP_NAMENODE_OPTS&＃61;"-Xmx512m-Xms512m -Dhadoop.security.logger&＃61;${HADOOP_SECURITY_LOGGER:-INFO,RFAS} -Dhdfs.audit.logger&＃61;${HDFS_AUDIT_LOGGER:-INFO,NullAppender} $HADOOP_NAMENODE_OPTS"

DataNode&＃xff1a;

export HADOOP_DATANODE_OPTS&＃61;"-Xmx256m -Xms256m -Dhadoop.security.logger&＃61;ERROR,RFAS $HADOOP_DATANODE_OPTS"

-Xmx -Xms 这两个参数一般保持一致&＃xff0c;以避免每次垃圾回收完成后 JVM 重新分配内存。

b&＃xff09;REsourceManager 和 NodeManager 内存调整在 yarn-env.sh 文件中

REsourceManager&＃xff1a;

export YARN_RESOURCEMANAGER_HEAPSIZE&＃61;1000 默认 export YARN_RESOURCEMANAGER_OPTS&＃61;"..........."可以覆盖上面的值

NodeManager&＃xff1a;

export YARN_NODEMANAGER_HEAPSIZE&＃61;1000 默认export YARN_NODEMANAGER_OPTS&＃61;"";可以覆盖上面的值

常驻内存经验配置&＃xff1a;

namenode:16G

datanode:2-4G

ResourceManager:4GNodeManager:2G

Zookeeper&＃xff1a;4G

Hive Server&＃xff1a;2G

2. mr中间目录要配置多个&＃xff0c;分散IO 压力

http://hadoop.apache.org/docs/r2.6.0/

配置文件yarn-default.xml 分散 IO 压力

yarn.nodemanager.local-dirs

yarn.nodemanager.log-dirs

配置文件 mapred-default.xml&＃xff1a;

mapreduce.cluster.local.dir

配置文件 hdfs-default.xml&＃xff1a;提高可靠性

dfs.namenode.name.dirdfs.namenode.edits.dir

dfs.datanode.data.dir

3. mr中间结果要压缩

a&＃xff09;配置 mapred-site.xml 文件中配置

mapreduce.map.output.compress

true

mapreduce.map.output.compress.codec

org.apache.hadoop.io.compress.SnappyCodec

程序运行时指定参数 hadoop jar /home/hadoop/tv/tv.jar MediaIndex -Dmapreduce.compress.map.output&＃61;true -Dmapreduce.map.output.compression.codec&＃61;org.apache.hadoop.io.compress.SnappyCodec /tvdata /media

b&＃xff09;使用合理的压缩算法&＃xff08;cpu 和磁盘&＃xff09; cpu&＃xff1a;如果是 cpu 的瓶颈&＃xff0c;可以更换速度快的压缩算法磁盘&＃xff1a;如果是磁盘的瓶颈&＃xff0c;可以更换压缩力度大的压缩算法一般情况我们使用 snappy 压缩&＃xff0c;比较均衡 lzo

4. hdfs文件系统中避免&＃xff0c;大量小文件存在

5. 根据具体情况&＃xff0c;在 Map 节点使用 Combiner&＃xff0c;减少输出结果 6. 重用 Writable 类型

比如声明一个对象 Text word &＃61; new Text(); map(),reduce()方法里面重用

7. 根据集群节点具体情况&＃xff0c;调整 task 的并行度

设置 map 和 reduce 最大任务个数&＃xff1a;

mapreduce.tasktracker.map.tasks.maximum

mapreduce.tasktracker.reduce.tasks.maximum

配置文件 mapred-default.xml&＃xff1a;

设置 map 和 reduce 单个任务内存大小&＃xff1a;

mapreduce.map.memory.mb 1G 默认

mapreduce.reduce.memory.mb 1G 默认

8. 要有效的监控手段(使用nmon&＃xff0c;条件允许会部署ganglia搜集各种指标&＃xff0c;分析指标发现瓶颈&＃xff0c;然后指定措施) 硬件层面性能调优&＃xff1a;

机架分开&＃xff0c;节点均匀放置

操作系统层面性能调优&＃xff1a;

多个网卡&＃xff1a;多网卡绑定&＃xff0c;做负载均衡或者主备

磁盘&＃xff1a;多个磁盘挂载到不同目录下&＃xff0c;存放数据做计算的磁盘不要做 raid

集群规划&＃xff1a;

集群节点内存分配&＃xff1a;

比如一个数据节点&＃xff0c;假如 task 并行度为 8 DataNode&＃xff08;2~4G&＃xff09;&＃43; NodeManager&＃xff08;2G&＃xff09;&＃43;Zookeeper&＃xff08;4G&＃xff09;&＃43;1G&＃xff08;单个任务默认大小&＃xff09;*8&＃61;16G~18G

集群规模&＃xff1a; 假如每天数据 1T 数据保存一个月&＃xff0c;每个节点硬盘 2T 1T*3(副本)*30&＃xff08;天&＃xff09;&＃61;90T&＃61;n*2T*&＃xff08;60~70%&＃xff09; n&＃61;60 节点左右企业中数据保留 7 天 15 天比较常见&＃xff0c;数据比较重要的话 1 个月

【本文地址】

公司简介

联系我们