【Hive】Hive元数据库介绍及信息查看 您所在的位置:网站首页 元数据库包括 【Hive】Hive元数据库介绍及信息查看

【Hive】Hive元数据库介绍及信息查看

2023-10-04 13:59| 来源: 网络整理| 查看: 265

转载@dabokele

在安装Hive时,需要在hive-site.xml文件中配置元数据相关信息。与传统关系型数据库不同的是,hive表中的数据都是保存的HDFS上,也就是说hive中的数据库、表、分区等都可以在HDFS找到对应的文件。这里说到的元数据可以理解成hive中用于保存数据库、表、分区或者表字段等基本属性,以及这些属性与HDFS文件对应关系的一个映射。    这些映射关系比较常见的一个场景是保存在mysql数据库中。接下来会分析hive安装时的一些配置信息,以及元数据库中主要表的用途。

一  hive配置

  有关hive的配置都在hive-site.xml文件中。

属性描述默认值hive.metastore.warehouse.dir指定hive表在hdfs上的存储路径/user/hive/warehousejavax.jdo.option.ConnectionURL配置元数据的连接URL javax.jdo.option.ConnectionUserName元数据库连接用户名 javax.jdo.option.ConnectionPassword元数据库连接密码 

比如如下的配置:

javax.jdo.option.ConnectionURL jdbc:mysql://m000:3306/hive JDBC connect string for a JDBC metastore javax.jdo.option.ConnectionUserName hiveuser username to use against metastore database javax.jdo.option.ConnectionPassword hiveuser password to use against metastore database

  在hive中,默认情况下新建的数据库以及表都位于HDFS的hive.metastore.warehouse.dir路径下。如下图分别显示了数据库,表,以及表文件在HDFS上的文件路径    这里写图片描述   根据javax.jdo.option.ConnectionURL中设置的数据库,以及用户名和密码,hive就可以写入和读取其元数据信息。    连接元数据库除了配置URL,username,password之外,还有一种间接的方式。可以在hive客户端A上用hive --service metastore启动一个metastore服务,然后在另外一个hive客户端B的hive-site.xml文件中配置hive.metastore.uris=thrift://A:9083也可以访问到元数据信息(9083端口为默认,可使用-p参数手动指定)。

二  元数据库表描述

  这一节描述hive元数据库中比较重要的一些表的作用,随着后续对hive的使用逐渐补充更多的内容。  mysql元数据库hive中的表:

表名作用BUCKETING_COLS存储bucket字段信息,通过SD_ID与其他表关联CDS表示该分区、表存储的字段信息。一个字段CD_ID,与SDS表关联COLUMNS_V2表示该分区、表存储的字段信息。存储字段信息,通过CD_ID与其他表关联DATABASE_PARAMS描述数据库的属性信息DBS存储hive的database信息DB_PRIVS描述数据库的权限信息DELETEME1410257703262空FUNCS记录用户子集编写的函数信息,包括函数名、对应类名、创建者信息等FUNC_RU记录自定义函数所在文件的路径GLOBAL_PRIVS全局变量,与表无关IDXSHive中索引的信息INDEX_PARAMS空PARTITIONS分区信息,SD_ID, TBL_ID关联PARTITION_KEYS存储分区字段列,TBL_ID关联PARTITION_KEY_VALS分区的值,通过PART_ID关联。与PARTITION_KEYS共用同一个字段INTEGER_IDX来标示不同的分区字段。PARTITION_PARAMS存储某分区相关信息,包括文件数,文件大小,记录条数等。通过PART_ID关联PART_COL_PRIVS分区列的授权信息PART_COL_STATS分区中列的统计信息PART_PRIVS空ROLES角色表,和GLOBAL_PRIVS配合,与表无关SDS存储输入输出format等信息,包括表的format和分区的format。关联字段CD_ID,SERDE_IDSD_PARAMS空SEQUENCE_TABLE存储sqeuence相关信息,与表无关SERDES存储序列化反序列化使用的类SERDE_PARAMS序列化反序列化相关配置信息,通过SERDE_ID关联SKEWED_COL_NAMES保存表、分区由数据倾斜的列信息,包括列名SKEWED_COL_VALUE_LOC_MAP空SKEWED_STRING_LIST保存表,分区有数据倾斜的字符串列表和值的信息SKEWED_STRING_LIST_VALUES保存表,分区有数据倾斜的字符串列表和值的信息SKEWED_VALUES保存表、分区倾斜列对应的本地文件路径SORT_COLS排序字段,包括列名和排序方式。通过SD_ID关联TABLE_PARAMS表相关信息,是否外部表,通过TBL_ID关联TAB_COL_STATS表中列的统计信息,包括数值类型的最大和最小值TBLS存储表信息,关联字段DB_ID,SD_ID,TBL_COL_PRIVS表或视图中列的授权信息,包括授权用户、被授权用户和授权的权限等TBL_PRIVS表赋权限相关信息,通过TBL_ID关联VERSION版本VERSION_copy版本,通过VER_ID关联

  这里补充介绍hive的一个工具脚本metatool。如果需要大量修改元数据库中的相关记录,可以具体查看metatool脚本的使用方法。    比如说,对一个HDFS做HA的时候,如果之前hdfs完整路径是hdfs://m000,做完HA之后把dfs.nameservices设置为my-cluster之后,hdfs的访问路径就变成了hdfs://my-cluster,此时就需要对hive元数据库中所有记录作更新,这时可以参考下面的操作,  使用metatool脚本,先是新路径,然后是旧路径 /usr/local/bigdata/hive/bin/metatool -updateLocation hdfs://my-cluster hdfs://m00

参考:https://www.cnblogs.com/qingyunzong/p/8710356.html#_label3



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有