初学Hadoop心得

2024-07-02 14:44| 来源: 网络整理| 查看: 265

Hadoop认识总结对Hadoop的基本认识Hadoop安装过程分布式文件系统HDFS命令课堂笔记总结

对Hadoop的基本认识

Hadoop是一个分布式系统基础技术框架，由Apache基金会所开发。利用hadoop,软件开发用户可以在不了解分布式底层细节的情况下，开发分布式程序，从而达到充分利用集群的威力高速运算和存储的目的。 Hadoop是根据google的三大论文作为基础而研发的，google 的三大论文分别是: MapReduce、 GFS和BigTable。因此，hadoop 也因此被称为是: google技术的山寨版。不过这种“山寨版”却成了当下大数据处理技术的国际标准(因为它是世界上唯一个做得相对完善而又开源的框架)。 Hadoop框架中最核心的设计就是: MapReduce 和HDFS。MapReduce 的思想是由Google的一篇论文所提及而被广为流传的，简单的一句话解释 MapReduce就是“ 任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System) 的缩写，为分布式计算存储提供了底层支持。 MapReduce从它名字上来看就大致可以看出个缘由，两个动词Map和Reduce，“Map (展开)”就是将一个任务分解成为多个任务，“Reduce” 就是将分解后多任务处理的结果汇总起来，得出最后的分析结果。这不是什么新思想，其实它的本质就是一种“分治法”的思想，把一个巨大的任务分割成许许多多的小任务单元，最后再将每个小任务单元的结果汇总，并求得最终结果。在分布式系统中，机器集群就可以看作硬件资源池，将并行的任务拆分，然后交由每一个空闲机器资源去处理，能够极大地提高计算效率，同时这种资源无关性，对于计算集群的扩展无疑提供了最好的设计保证。任务分解处理以后，那就需要将处理以后的结果再汇总起来，这就是Reduce要做的工作。总之，用户利用Hadoop可以轻松的组织计算机资源，搭建自己的分布式计算平台，充分利用集群的计算和存储能力，完成海量数据的处理。

Hadoop安装过程

搭建Linux环境： 1)在Vmware 虚拟机中安装rhel-server-6.3-i386-dvd.iso 2）设置Vmware虚拟机的网络方式为bridge（桥接）

Hadoop伪分布模式安装步骤： 1)关闭防火墙：查看Linux系统防火墙状态：命令：Service iptables status 关闭防火墙命令：service iptables stop 关闭防火墙的自动运行命令：chkconfig iptables off 2)修改IP: 设置Linux系统静态IP地址因为虚拟机网络采用bridge桥接方式，客户机和宿主机在同一个局域网中，因此按如下方式设置客户操作系统的IP地址：客户操作系统的IP地址和主操作系统在同一网段客户操作系统的网关和主操作系统一致客户操作系统的DNS和主操作系统一致设置完毕执行命令：service network restart重启Linux系统网络。验证：使用ifconfig命令查看设置是否成功 3)修改HOSTNAME: 修改当前会话中的主机名(暂时性)：命令：hostname hadoop 修改配置文件中的主机名（永久性）： vi /etc/sysconfig/network HOSTNAME=hadoop 4)设置ssh自动登录: 执行以下命令产生密钥，位于~/.ssh目录 ssh-keygen –t rsa 执行以下拷贝命令，创建密钥文件authorized_keys cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys 验证：执行命令：ssh localhost 登录主机执行命令：exit 退出连接 5)安装jdk: 使用winscp将jdk安装文件从windows拷贝到Linux的/usr/local目录下给jdk文件赋予用户的可执行权限： chmod u+x jdk文件解压缩jdk文件 ./jdk文件为以后使用方便，将解压后的文件夹重命名为jdk mv 旧文件名 jdk 设置环境变量： vi /etc/profile #编辑此文件，增加2行内容 export JAVA_HOME=/usr/local/jdk export PATH=.:$JAVA_HOME/bin:$PATH 执行以下命令，使设置立即生效 source /etc/profile 验证： java -version 6)安装hadoop 1.使用winscp将hadoop安装包拷贝/usr/local目录下，然后进入此目录解压缩hadoop安装文件 tar zxvf hadoop-2.6.2.tar.gz 2.设置环境变量： vi /etc/profile #编辑此文件，增加2行内容 export HADOOP_HOME=/usr/local/hadoop-2.6.2 export PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH 执行以下命令，使设置立即生效 source /etc/profile 3.修改hadoop的配置文件：配置文件路径：/usr/local/hadoop-2.6.2/etc/hadoop/ 目录下修改hadoop-env.sh 文件，配置jdk的路径 export JAVA_HOME=/usr/lib/jvm/jdk…(jdk实际安装路径) 修改yarn-env.sh 文件，配置jdk的路径 export JAVA_HOME=/usr/lib/jvm/jdk…(jdk实际安装路径) 修改 core-site.xml，添加以下内容，配置HDFS的地址和端口号 fs.defaultFS hdfs://hadoop0:9000 hadoop.tmp.dir /usr/local/hadoop-2.6.2/tmp 4.修改hadoop的配置文件：修改 hdfs-site.xml文件，修改block副本数：replication dfs.replication 1 修改mapred-site.xml，配置使用yarn框架先创建mapred-site.xml：执行命令：cp mapred-site.xml.template mapred-site.xml 在进行下面的配置： mapreduce.framework.name yarn 修改yarn-site.xml，配置yarn属性及端口 yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.address hadoop0:9001

Hadoop的配置及启动 1)格式化hdfs： hadoop namenode –format 启动/关闭所有进程： start-all.sh stop-all.sh 启动/关闭hdfs： start-dfs.sh stop-dfs.sh 启动/关闭yarn start-yarn.sh stop-yarn.sh 2)验证hadoop安装是否成功： 1.执行命令jps查看java进程，是否启动了以下5个进程： NameNode，SecondaryNamenode，DataNode、ResourceManager、NodeManager 以上5个进程运行在主节点的有： NameNode，SecondaryNamenode ，ResourceManager 运行在从节点的有： DataNode、NodeManager 2.通过浏览器访问hadoop 在浏览器分别输入以下地址进行访问： hadoop(主机名):50070 Hadoop(主机名):50030 至此安装配置完成！

分布式文件系统HDFS命令

HDFS操作命令帮助：所有的hdfs命令都是以hadoop fs开头 HDFS的shell命令在线帮助 1.hadoop fs 使用此命令可以查看HDFS的所有常用命令语法 2.hadoop fs help 使用此命令可以查看HDFS的所有常用命令语法 3. hadoop fs –help 命令查看某个命令的具体功能

HDFS的fs命令 -help [cmd] //显示命令的帮助信息 -ls( r) //显示当前目录下所有文件 -du(s) //显示目录中所有文件大小 -count[-q] //显示目录中文件数量 -mv //移动多个文件到目标目录 -cp //复制多个文件到目标目录 -rm(r ) //删除文件(夹) -put //本地文件复制到hdfs -copyFromLocal //同put -moveFromLocal //从本地文件移动到hdfs -get [-ignoreCrc] //复制文件到本地，可以忽略crc校验 -getmerge //将源目录中的所有文件排序合并到一个文件中 -cat //在终端显示文件内容 -text //在终端显示文件内容 -copyToLocal [-ignoreCrc] //复制到本地 -moveToLocal -mkdir //创建文件夹 -touchz //创建一个空文件

课堂笔记

第一章Hadoop最初的两个核心项目 Hdfs 分布式文件系统（强调一下是一个文件系统）守护进程：namenode（主节点，名称节点，只有一个） datanode（从节点，数据节点，可能有若干个） Mapreduce 并行计算框架守护进程：jobtracker（主节点，只有一个） tasktracker（从节点，可能有若干个）（hadoop1.x的内容，后面会进行更新）

特点：可靠性、低成本、高效率、扩容能力

第二章 hadoop安装配置（上）第一节基础环境配置前置（可选）普通用户获取部分管理员权限操作步骤：登陆虚拟控制台ctrl+alt+f2 登录管理员用户和密码打开sudoers文件 $vim /etc/sudoers 找到第98行 root ALL=(ALL) ALL 将其复制，并更改为ryan（你的用户名） ALL=(ALL) ALL 保存退出：按esc，输入：wq 到这一步，ryan用户就获取了所有的管理员权限，执行管理员命令时，需要在前面加上sudo命令。 1.1基础网络配置网络联通配置 1）打开网络配置文件 sudo vim /etc/sysconfig/network-scripts/ifcfg-eno176…… 输入密码在此文件中更改以下内容 BOOTPROTO=static ONBOOT=yes 在此文件中添加以下内容 IPADDR=192.168.237.10 NETMASK=255.255.255.0 GATEWAY=192.168.237.2 DNS1=8.8.8.8 2）重启网络 service network restart 3）测试 ping 8.8.8.8

第二章 hadoop安装配置（下）主机名与IP地址对应关系操作 1.设置主机名 sudo vim /etc/hostname 删除原有内容，添加自己的主机名 2. 设置主机名与IP地址的对应关系 sudo vim /etc/hosts 此文件在最后添加对应关系如下 IP地址1 主机名1 IP地址2 主机名2 。。。 3. 关闭防火墙 systemctl stop firewalld 设置防火墙开机不启动 systemctl start firewalld 设置防火墙打开 systemctl status firewalld 查看防火墙

Jdk的安装 1.奖jdk安装文件复制到虚拟机中去，在自己的用户目录下新建一个java目录。将安装文件移动到该目录下解压。解压命令 tar zxvf 压缩包名解压完成，会在当前目录下出现一个新的目录文件。将此目录改名为jdk目录（使用mv命令，作用是简化目录名）打开用户目录下的.bashrc文件 Vim ~/.bashrc 在此文件的任意位置添加以下内容 JAVA_HOME=/home/ryan/java/jdk PATH=${PATH}: ${JAVA_HOME}/bin

添加完成后保存退出让此文件立即生效 Source ~/.bashrc

总结

经过这7周的学习收获颇多，故发此文章以便以后需要时方便查阅

【本文地址】

公司简介

联系我们