【hadoop】Archive命令使用

#【hadoop】Archive命令使用| 来源: 网络整理| 查看: 265

Archive命令

hadoop Archive是一个高效地将小文件放入HDFS块中的文件存档文件格式，它能够将多个小文件打包成一个后缀为.har文件，这样减少namenode内存使用的同时，仍然允许对文件进行透明的访问。 hadoop Archive目录包含元数据文件（ _index 和 _masterindex）和数据文件（part-*），这个_index文件包含了所有文件的名称和他对应part文件的位置。

（1）怎么使用Archive

使用：

hadoop archive -archiveName name -p [-r ] *

-archiveName 你需要创建的archive的文件名，例如：tmp.har. 名字应该用*.har后缀。是指定Archive文件的相对路径，例如：-p /user/dss/ /test1 /test2 这里 /user/dss/是/test1和/test2两个相对路径的父路径. 一个是要归档的资源路径，一个是最终归档路径的存放路径。注意：Archive是MapReduce创建了。所以要在map reduce集群环境下运行它。

-r 指示所需的复制因子；如果该可选参数未指定，将使用10的复制因子。

例如：将/user/fish/arch/test1目录下的文件归档到/user/tom/test33文件夹下：hadoop archive -archiveName test.har -p /user/fish arch/test1/ test2

【本文地址】

公司简介

联系我们