【精选】数仓(七):全量、 增量、缓慢变化维、拉链表 | 您所在的位置:网站首页 › 数据增量更新怎么操作手机 › 【精选】数仓(七):全量、 增量、缓慢变化维、拉链表 |
一、数据抽取、更新方式
解决增量导入由于数据修改导致数据重复问题 方案一:全量更新目标表只保留最新的一份,比如我们每天用sqoop抽取最新的一份全量数据到hive 全量表:全量表没有分区,表中的数据是前一天的所有数据,比如说今天是24号,那么全量表里面拥有的数据是23号的所有数据,每次往全量表里面写数据都会覆盖之前的数据,所以全量表不能记录历史的数据情况,只有截止到当前最新的、全量的数据。 方式:每天drop掉前一天的数据,重新抽一份最新的。 优点:节省空间,一些普通的使用也很方便,不用在选择表的时候加一个时间分区什么的。 缺点:没有历史数据,先翻翻旧账只能通过其它方式,比如从流水表里面抽。 方案二:快照表,每天保留一份全量的切片数据那么要能查到历史数据情况又该怎么办呢?这个时候快照表就派上用途了,快照表是有时间分区的,每个分区里面的数据都是分区时间对应的前一天的所有全量数据,比如说当前数据表有3个分区,24号,25号,26号。其中,24号分区里面的数据就是从历史到23号的所有数据,25号分区里面的数据就是从历史到24号的所有数据,以此类推。 方式:每天一份全量的切片 优点:比较稳妥,而且历史数据也在 缺点:存储空间占有量太大,如果每天都保留一份全量,那么每次全量中会保存很多不变的信息, 对存储是极大的浪费在数据从源业务系统每天正常抽取 |
CopyRight 2018-2019 实验室设备网 版权所有 |