Hadoop综合大作业 您所在的位置:网站首页 数据库大作业模板 Hadoop综合大作业

Hadoop综合大作业

2024-06-29 12:46| 来源: 网络整理| 查看: 265

一、 需求描述 Hadoop综合大作业 要求: 1.将待分析的文件(不少于10000英文单词)上传到HDFS。 2.调用MapReduce对文件中各个单词出现的次数进行统计。 3.将统计结果下载本地。 4.写一篇博客描述你的分析过程和分析结果。 本次大作业,我们需要实现的是调用MapReduce对文件中各个单词出现的次数进行统计。要求在Linux系统中实现上述操作。首先要安装Ubuntu系统,然后要配置Java环境,安装JDK。Ubuntu提供了一个健壮,功能丰富的计算环境。

二、环境介绍 在VMware上通过Ubuntu镜像安装Ubuntu操作系统,Ubuntu里安装好VMware tool,这个工具方便我们从本地上传文件虚拟机。在Ubuntu操作系统里面安装Hadoop,通过Ubuntu软件中心安装Eclipse。安装JAVA环境,下载文件 jdk-8u162-linux-x64.tar.gz后配置Hadoop伪分布式。将数据上传HDFS,在Eclipse创建MapReduce项目,创建Java工程,添加项目所需要的jar包 三、数据来源及数据上传 从百度下载了个157351字的圣诞颂歌的英文版,将其重命名为1.text。通过拖拽的方式上传至虚拟机。 在这里插入图片描述

文件已经/home/hadoop目录下: 在这里插入图片描述

四、数据上传结果查看 启动hadoop,将1.txt上传至HDFS并查看是否存在此文件: 在这里插入图片描述

五、数据处理过程的描述 1、 创建项目并添加相应jar包 在这里插入图片描述

2、创建wordcount类 在这里插入图片描述

3、编写代码并运行 在这里插入图片描述

4、将其打成jar包 在这里插入图片描述

5、查看已经生成的jar包 在这里插入图片描述

六、处理结果的下载及命令行展示 使用hadoop jar 运行jar包 在这里插入图片描述 在这里插入图片描述

查看结果

在这里插入图片描述 在这里插入图片描述

七、经验总结 之前虽然做过大数据环境的搭建和词频统计,但配置大数据环境并不容易,只做过一遍然后现在让我们自己不看书也是做不了的,在熟记Linux各种常用命令的前提下,还需要细心,专心以及知道环境搭建的细节,环境搭建姑且不讲,环境搭建在网友帮助下还是可以搭建起来的,但词频统计就是需要有自己的理解才能做出来,独自做词频统计就是在考验我们的大数据的基本开发,如果词频统计都过不了关的话是做不了大数据开发的,因为大数据开发最基本的MapReduce都弄不好,其他的组件就更难理解了,因为有些组件是在MapReduce的基础上实现数据批处理的,比如Hive,所以理解并且熟练使用MapReduce编程是必须的。不会就只能多做几遍,多理解几遍代码,也需要去了解JavaAPI的使用,只有了解JavaAPI的使用,才能更好的编写MapReduce代码,严格意义上多做几遍可以复习了前面学习过的hadoop命令以及linux命令, 使用代码进行了一次在hadoop环境中运行,对数据进行处理的过程,我觉得是学习大数据真正意义上的开始。我们会觉得大数据越来越有趣,这学期学习了其他组件的使用,觉得大数据开发的生态是连接起来的,但这个生态是围绕着hadoop的,hadoop理解透彻了,其他组件学起来也会慢慢理解,然后积累起来,等生态圈学习完了,应该才能成为真正的大数据开发工程师,期望学习到越来越多的大数据的知识,提高编写代码的能力。

参考文献 [1] 蔡斌, 陈湘萍. Hadoop 技术内幕:深入解析Hadoop Common 和HDFS 架构设计与实现原理[M]. 机械工业出版社, 2013. [2] 董西成. Hadoop技术内幕:深入解析MapReduce架构设计与实现原理[M]. [3]刘鹏,黄宜华,陈卫卫.实战 Hadoop.北京:电子工业版社.2011. [4]项亮.推荐系统实践.北京:人民邮电出版社,2012. [5]林子雨.大数据技术原理与应用.北京:人民邮电出版社,2021



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有