数仓建设流程 | 您所在的位置:网站首页 › 分层主题模型是什么 › 数仓建设流程 |
数仓建设流程
一、数仓概览二、流程详解1.梳理业务流程2.垂直切分,划分主题域3.梳理指标体系4.表实体关系调研5.维度梳理4.数仓分层7.物理模型建立
三、需要注意五、数据仓库工具箱1.选择业务过程2.声明粒度3.确认维度4.确认事实
注:本文转至
如何搭建一个数据仓库,仅用于个人学习,侵权删。
一、数仓概览
整体建设 ![]() ![]() ① 找到核心业务流程,找到谁,在什么环节,做什么关键动作,得到什么结果。如图: ②梳理每个业务节点的客户及关注重点,找到数据在哪。 ![]() ![]() ![]() ![]() ① 每个业务动作都会有数据产生。我们将能够获取到的数据,提取实体,绘制ER图,便于之后的维度建模。 ② 同样以业务过程为起点向下梳理,此时的核心是业务表。把每张表中涉及的维度、指标都整理出来。 每一层采用的建模方法都不一样,其核心是逐层解耦,减少重复计算,降低烟囱式开发。越到底层,越接近业务发生的记录,越到上层,越接近业务目标。 依托数仓分层的设计理论,根据实际业务场景,我们就可以梳理出整体的数据流向图。这张图会很清晰的告诉所有人,数据从那来,到哪里去,最终提供什么样的服务。 1、数仓建设必须从业务中来,到业务中去; 2、数仓分层的目的是业务解耦; 3、无论哪种建模方式,其核心是业务实体; 4、按领域建设能快速交活,后遗症将会在2年之后爆发,且难以解决; 5、数仓建设应该把75%的时间投入到设计阶段,如果不是,那你就惨了; 6、数仓本身也可以迭代。 7、传统数仓并没有一种叫做“宽表模型”的模型,大数据时代新诞生的名词,因为很多大数据组件join代价极高。实际上是范式退化。 五、数据仓库工具箱《数据仓库工具箱——维度建模指南》中,第二章总结了 维度设计的四个主要过程: 1.选择业务过程 业务过程是公司完成的操作型的活动,例如,获取订单,处理保险索赔、学生课程注册等等。 2.声明粒度 粒度用于确认某一事实事实表中的一行表示什么。粒度声明是设计必须履行的合同。每个候选维度或事实必须与定义的粒度保持一致。在同一个事实表中不要混入多种不同的粒度。 3.确认维度 维度提供围绕某一业务过程事件所涉及的“谁、什么、何处、何时、为什么、如何?”等等背景。 4.确认事实 事实涉及来自业务过程时间的度量,基本上都是以数值量表示的。 |
今日新闻 |
推荐新闻 |
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 |