初学Hadoop心得 您所在的位置:网站首页 系统安装心得体会 初学Hadoop心得

初学Hadoop心得

2024-07-02 14:44| 来源: 网络整理| 查看: 265

Hadoop认识总结 对Hadoop的基本认识Hadoop安装过程分布式文件系统HDFS命令课堂笔记总结

对Hadoop的基本认识

Hadoop是一个分布式系统基础技术框架,由Apache基金会所开发。利用hadoop,软件开发用户可以在不了解分布式底层细节的情况下,开发分布式程序,从而达到充分利用集群的威力高速运算和存储的目的。 Hadoop是根据google的三大论文作为基础而研发的,google 的三大论文分别是: MapReduce、 GFS和BigTable。因此,hadoop 也因此被称为是: google技术的山寨版。不过这种“山寨版”却成了当下大数据处理技术的国际标准(因为它是世界上唯一个做得相对完善而又开源的框架)。 Hadoop框架中最核心的设计就是: MapReduce 和HDFS。MapReduce 的思想是由Google的一篇论文所提及而被广为流传的,简单的一句话解释 MapReduce就是“ 任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System) 的缩写,为分布式计算存储提供了底层支持。 MapReduce从它名字上来看就大致可以看出个缘由,两个动词Map和Reduce,“Map (展开)”就是将一个任务 分解成为多个任务,“Reduce” 就是将分解后多任务处理的结果汇总起来,得出最后的分析结果。这不是什么新思想,其实它的本质就是一种“分治法”的思想,把一个巨大的任务分割成许许多多的小任务单元,最后再将每个小任务单元的结果汇总,并求得最终结果。在分布式系统中,机器集群就可以看作硬件资源池,将并行的任务拆分,然后交由每一个空闲机器资源去处理,能够极大地提高计算效率,同时这种资源无关性,对于计算集群的扩展无疑提供了最好的设计保证。任务分解处理以后,那就需要将处理以后的结果再汇总起来,这就是Reduce要做的工作。 总之,用户利用Hadoop可以轻松的组织计算机资源,搭建自己的分布式计算平台,充分利用集群的计算和存储能力,完成海量数据的处理。

Hadoop安装过程

搭建Linux环境: 1)在Vmware 虚拟机中安装rhel-server-6.3-i386-dvd.iso 2)设置Vmware虚拟机的网络方式为bridge(桥接)

Hadoop伪分布模式安装步骤: 1)关闭防火墙: 查看Linux系统防火墙状态: 命令:Service iptables status 关闭防火墙 命令:service iptables stop 关闭防火墙的自动运行 命令:chkconfig iptables off 2)修改IP: 设置Linux系统静态IP地址 因为虚拟机网络采用bridge桥接方式,客户机和宿主机在同一个局域网中,因此按如下方式设置客户操作系统的IP地址: 客户操作系统的IP地址和主操作系统在同一网段 客户操作系统的网关和主操作系统一致 客户操作系统的DNS和主操作系统一致 设置完毕执行命令:service network restart重启Linux系统网络。 验证:使用ifconfig命令查看设置是否成功 3)修改HOSTNAME: 修改当前会话中的主机名(暂时性): 命令:hostname hadoop 修改配置文件中的主机名(永久性): vi /etc/sysconfig/network HOSTNAME=hadoop 4)设置ssh自动登录: 执行以下命令产生密钥,位于~/.ssh目录 ssh-keygen –t rsa 执行以下拷贝命令,创建密钥文件authorized_keys cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys 验证: 执行命令:ssh localhost 登录主机 执行命令:exit 退出连接 5)安装jdk: 使用winscp将jdk安装文件从windows拷贝到Linux的/usr/local目录下 给jdk文件赋予用户的可执行权限: chmod u+x jdk文件 解压缩jdk文件 ./jdk文件 为以后使用方便,将解压后的文件夹重命名为jdk mv 旧文件名 jdk 设置环境变量: vi /etc/profile #编辑此文件,增加2行内容 export JAVA_HOME=/usr/local/jdk export PATH=.:$JAVA_HOME/bin:$PATH 执行以下命令,使设置立即生效 source /etc/profile 验证: java -version 6)安装hadoop 1.使用winscp将hadoop安装包拷贝/usr/local目录下,然后进入此目录解压缩hadoop安装文件 tar zxvf hadoop-2.6.2.tar.gz 2.设置环境变量: vi /etc/profile #编辑此文件,增加2行内容 export HADOOP_HOME=/usr/local/hadoop-2.6.2 export PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH 执行以下命令,使设置立即生效 source /etc/profile 3.修改hadoop的配置文件:配置文件路径:/usr/local/hadoop-2.6.2/etc/hadoop/ 目录下 修改hadoop-env.sh 文件,配置jdk的路径 export JAVA_HOME=/usr/lib/jvm/jdk…(jdk实际安装路径) 修改yarn-env.sh 文件,配置jdk的路径 export JAVA_HOME=/usr/lib/jvm/jdk…(jdk实际安装路径) 修改 core-site.xml,添加以下内容,配置HDFS的地址和端口号 fs.defaultFS hdfs://hadoop0:9000 hadoop.tmp.dir /usr/local/hadoop-2.6.2/tmp 4.修改hadoop的配置文件: 修改 hdfs-site.xml文件,修改block副本数:replication dfs.replication 1 修改mapred-site.xml,配置使用yarn框架 先创建mapred-site.xml: 执行命令:cp mapred-site.xml.template mapred-site.xml 在进行下面的配置: mapreduce.framework.name yarn 修改yarn-site.xml,配置yarn属性及端口 yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.address hadoop0:9001

Hadoop的配置及启动 1)格式化hdfs: hadoop namenode –format 启动/关闭所有进程: start-all.sh stop-all.sh 启动/关闭hdfs: start-dfs.sh stop-dfs.sh 启动/关闭yarn start-yarn.sh stop-yarn.sh 2)验证hadoop安装是否成功: 1.执行命令jps查看java进程,是否启动了以下5个进程: NameNode,SecondaryNamenode,DataNode、ResourceManager、NodeManager 以上5个进程运行在主节点的有: NameNode,SecondaryNamenode ,ResourceManager 运行在从节点的有: DataNode、NodeManager 2.通过浏览器访问hadoop 在浏览器分别输入以下地址进行访问: hadoop(主机名):50070 Hadoop(主机名):50030 至此安装配置完成!

分布式文件系统HDFS命令

HDFS操作命令帮助: 所有的hdfs命令都是以hadoop fs开头 HDFS的shell命令在线帮助 1.hadoop fs 使用此命令可以查看HDFS的所有常用命令语法 2.hadoop fs help 使用此命令可以查看HDFS的所有常用命令语法 3. hadoop fs –help 命令 查看某个命令的具体功能

HDFS的fs命令 -help [cmd] //显示命令的帮助信息 -ls( r) //显示当前目录下所有文件 -du(s) //显示目录中所有文件大小 -count[-q] //显示目录中文件数量 -mv //移动多个文件到目标目录 -cp //复制多个文件到目标目录 -rm(r ) //删除文件(夹) -put //本地文件复制到hdfs -copyFromLocal //同put -moveFromLocal //从本地文件移动到hdfs -get [-ignoreCrc] //复制文件到本地,可以忽略crc校验 -getmerge //将源目录中的所有文件排序合并到一个文件中 -cat //在终端显示文件内容 -text //在终端显示文件内容 -copyToLocal [-ignoreCrc] //复制到本地 -moveToLocal -mkdir //创建文件夹 -touchz //创建一个空文件

课堂笔记

第一章Hadoop最初的两个核心项目 Hdfs 分布式文件系统(强调一下是一个文件系统) 守护进程:namenode(主节点,名称节点,只有一个) datanode(从节点,数据节点,可能有若干个) Mapreduce 并行计算框架 守护进程:jobtracker(主节点,只有一个) tasktracker(从节点,可能有若干个)(hadoop1.x的内容,后面会进行更新)

特点:可靠性、低成本、高效率、扩容能力

第二章 hadoop安装配置(上) 第一节 基础环境配置 前置(可选)普通用户获取部分管理员权限 操作步骤: 登陆虚拟控制台ctrl+alt+f2 登录管理员用户和密码 打开sudoers文件 $vim /etc/sudoers 找到第98行 root ALL=(ALL) ALL 将其复制,并更改为ryan(你的用户名) ALL=(ALL) ALL 保存退出:按esc,输入:wq 到这一步,ryan用户就获取了所有的管理员权限,执行管理员命令时,需要在前面加上sudo命令。 1.1基础网络配置 网络联通配置 1) 打开网络配置文件 sudo vim /etc/sysconfig/network-scripts/ifcfg-eno176…… 输入密码 在此文件中更改以下内容 BOOTPROTO=static ONBOOT=yes 在此文件中添加以下内容 IPADDR=192.168.237.10 NETMASK=255.255.255.0 GATEWAY=192.168.237.2 DNS1=8.8.8.8 2) 重启网络 service network restart 3) 测试 ping 8.8.8.8

第二章 hadoop安装配置(下) 主机名与IP地址对应关系操作 1.设置主机名 sudo vim /etc/hostname 删除原有内容,添加自己的主机名 2. 设置主机名与IP地址的对应关系 sudo vim /etc/hosts 此文件在最后添加对应关系如下 IP地址1 主机名1 IP地址2 主机名2 。。。 3. 关闭防火墙 systemctl stop firewalld 设置防火墙开机不启动 systemctl start firewalld 设置防火墙打开 systemctl status firewalld 查看防火墙

Jdk的安装 1.奖jdk安装文件复制到虚拟机中去,在自己的用户目录下新建一个java目录。将安装文件移动到该目录下解压。 解压命令 tar zxvf 压缩包名 解压完成,会在当前目录下出现一个新的目录文件。将此目录改名为jdk目录(使用mv命令,作用是简化目录名) 打开用户目录下的.bashrc文件 Vim ~/.bashrc 在此文件的任意位置添加以下内容 JAVA_HOME=/home/ryan/java/jdk PATH=${PATH}: ${JAVA_HOME}/bin

添加完成后保存退出 让此文件立即生效 Source ~/.bashrc

总结

经过这7周的学习收获颇多,故发此文章以便以后需要时方便查阅



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有