数仓工具hive(四):Hive文件存储格式以及优缺点 |
您所在的位置:网站首页 › ps文件格式有哪些,各有什么特点 › 数仓工具hive(四):Hive文件存储格式以及优缺点 |
前言
Hive支持的存储数的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。 行与列存储的特点 行存储的特点查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。 列存储的特点因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存储可以针对性的设计更好的设计压缩算法。 Hive文件存储格式以及优缺点 textfile 默认的文件格式,行存储。建表时不指定存储格式即为textfile,导入数据时把数据文件拷贝至hdfs不进行处理 优点:最简单的数据格式,便于和其他工具(Pig, grep, sed, awk)共享数据,便于查看和编辑;加载较快 缺点:耗费存储空间,I/O性能较低;Hive不进行数据切分合并,不能进行并行操作,查询效率低 场景:适用于小型查询,查看具体数据内容的测试操作 sequencefile 含有键值对的二进制文件,行存储 优点:可压缩、可分割,优化磁盘利用率和I/O;可并行操作数据,查 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |