Hadoop综合大作业

2024-06-29 12:46| 来源: 网络整理| 查看: 265

一、需求描述 Hadoop综合大作业要求： 1.将待分析的文件（不少于10000英文单词）上传到HDFS。 2.调用MapReduce对文件中各个单词出现的次数进行统计。 3.将统计结果下载本地。 4.写一篇博客描述你的分析过程和分析结果。本次大作业，我们需要实现的是调用MapReduce对文件中各个单词出现的次数进行统计。要求在Linux系统中实现上述操作。首先要安装Ubuntu系统，然后要配置Java环境，安装JDK。Ubuntu提供了一个健壮，功能丰富的计算环境。

二、环境介绍在VMware上通过Ubuntu镜像安装Ubuntu操作系统，Ubuntu里安装好VMware tool，这个工具方便我们从本地上传文件虚拟机。在Ubuntu操作系统里面安装Hadoop，通过Ubuntu软件中心安装Eclipse。安装JAVA环境，下载文件 jdk-8u162-linux-x64.tar.gz后配置Hadoop伪分布式。将数据上传HDFS，在Eclipse创建MapReduce项目，创建Java工程，添加项目所需要的jar包三、数据来源及数据上传从百度下载了个157351字的圣诞颂歌的英文版，将其重命名为1.text。通过拖拽的方式上传至虚拟机。在这里插入图片描述

文件已经/home/hadoop目录下: 在这里插入图片描述

四、数据上传结果查看启动hadoop，将1.txt上传至HDFS并查看是否存在此文件：在这里插入图片描述

五、数据处理过程的描述 1、创建项目并添加相应jar包在这里插入图片描述

2、创建wordcount类在这里插入图片描述

3、编写代码并运行在这里插入图片描述

4、将其打成jar包在这里插入图片描述

5、查看已经生成的jar包在这里插入图片描述

六、处理结果的下载及命令行展示使用hadoop jar 运行jar包在这里插入图片描述

查看结果

在这里插入图片描述

七、经验总结之前虽然做过大数据环境的搭建和词频统计，但配置大数据环境并不容易，只做过一遍然后现在让我们自己不看书也是做不了的，在熟记Linux各种常用命令的前提下，还需要细心，专心以及知道环境搭建的细节，环境搭建姑且不讲，环境搭建在网友帮助下还是可以搭建起来的，但词频统计就是需要有自己的理解才能做出来，独自做词频统计就是在考验我们的大数据的基本开发，如果词频统计都过不了关的话是做不了大数据开发的，因为大数据开发最基本的MapReduce都弄不好，其他的组件就更难理解了，因为有些组件是在MapReduce的基础上实现数据批处理的，比如Hive，所以理解并且熟练使用MapReduce编程是必须的。不会就只能多做几遍，多理解几遍代码，也需要去了解JavaAPI的使用，只有了解JavaAPI的使用，才能更好的编写MapReduce代码，严格意义上多做几遍可以复习了前面学习过的hadoop命令以及linux命令，使用代码进行了一次在hadoop环境中运行，对数据进行处理的过程，我觉得是学习大数据真正意义上的开始。我们会觉得大数据越来越有趣，这学期学习了其他组件的使用，觉得大数据开发的生态是连接起来的，但这个生态是围绕着hadoop的，hadoop理解透彻了，其他组件学起来也会慢慢理解，然后积累起来，等生态圈学习完了，应该才能成为真正的大数据开发工程师，期望学习到越来越多的大数据的知识，提高编写代码的能力。

参考文献 [1] 蔡斌, 陈湘萍. Hadoop 技术内幕：深入解析Hadoop Common 和HDFS 架构设计与实现原理[M]. 机械工业出版社, 2013. [2] 董西成. Hadoop技术内幕：深入解析MapReduce架构设计与实现原理[M]. [3]刘鹏,黄宜华,陈卫卫.实战 Hadoop.北京:电子工业版社.2011. [4]项亮.推荐系统实践.北京:人民邮电出版社,2012. [5]林子雨.大数据技术原理与应用.北京:人民邮电出版社,2021

【本文地址】

公司简介

联系我们