一篇文章搞懂数据仓库：四种常见数据模型（维度模型、范式模型等）

您所在的位置：网站首页 › 有哪3种数据模型各有什么特点 › 一篇文章搞懂数据仓库：四种常见数据模型（维度模型、范式模型等）

一篇文章搞懂数据仓库：四种常见数据模型（维度模型、范式模型等）

2024-07-03 22:36:36| 来源: 网络整理| 查看: 265

写在前面

一、为什么要进行数据仓库建模？

二、四种常见模型

2.1 维度模型

2.1.1 星型模型

2.1.2 雪花模型

2.1.3 星座模型

2.2 范式模型

2.3 Data Vault模型

2.4 Anchor模型

三数据模型的评价标准

小编有话

写在前面

大数据时代，维度建模已成为各大厂的主流方式。

维度建模从分析决策的需求出发构建模型，为分析需求服务。重点关注用户如何快速的完成数据分析，可以直观的反应业务模型中的业务问题，需要大量的数据预处理、数据冗余，有较好的大规模复杂查询的响应性能。

系列文章详见「数仓系列文章- 传送门」

一、为什么要进行数据仓库建模？性能：良好的模型能帮我们快速查询需要的数据，减少数据的IO吞吐成本：减少数据冗余、计算结果复用、从而降低存储和计算成本效率：改善用户使用数据的体验，提高使用数据的效率改善统计口径的不一致性，减少数据计算错误的可能性二、四种常见模型2.1 维度模型

维度建模按数据组织类型划分可分为星型模型、雪花模型、星座模型。

Kimball老爷爷维度建模四个步骤：

选择业务处理过程 > 定义粒度 > 选择维度 > 确定事实

2.1.1 星型模型

星型模型主要是维表和事实表，以事实表为中心，所有维度直接关联在事实表上，呈星型分布。

2.1.2 雪花模型

雪花模型，在星型模型的基础上，维度表上又关联了其他维度表。这种模型维护成本高，性能方面也较差，所以一般不建议使用。尤其是基于hadoop体系构建数仓，减少join就是减少shuffle，性能差距会很大。

星型模型可以理解为，一个事实表关联多个维度表，雪花模型可以理解为一个事实表关联多个维度表，维度表再关联维度表。

2.1.3 星座模型

星座模型，是对星型模型的扩展延伸，多张事实表共享维度表。

星座模型是很多数据仓库的常态，因为很多数据仓库都是多个事实表的。所以星座模型只反映是否有多个事实表，他们之间是否共享一些维度表。

2.2 范式模型

即实体关系（ER）模型，数据仓库之父Immon提出的，从全企业的高度设计一个3NF模型，用实体加关系描述的数据模型描述企业业务架构，在范式理论上符合3NF。此建模方法，对建模人员的能力要求非常高。

特点：设计思路自上而下，适合上游基础数据存储，同一份数据只存储一份，没有数据冗余，方便解耦，易维护，缺点是开发周期一般比较长，维护成本高。

详见：一篇文章搞懂数据仓库：三范式与反范式_不吃西红柿-CSDN博客_数据仓库三范式

2.3 Data Vault模型

DataVault由Hub（关键核心业务实体）、Link（关系）、Satellite（实体属性）三部分组成，是Dan Linstedt发起创建的一种模型方法论，它是在ER关系模型上的衍生，同时设计的出发点也是为了实现数据的整合，并非为数据决策分析直接使用。

2.4 Anchor模型

高度可扩展的模型，所有的扩展只是添加而不是修改，因此它将模型规范到6NF，基本变成了K-V结构模型。企业很少使用。

三数据模型的评价标准

数据模型建设的怎么样，极度依赖规范设计，如果代码风格是“千人千面”，那么恐怕半年下来，业务系统就没法看了。没有什么比“数据系统”更看重“法制”了，规范体系不仅能保障数据建设的一致性，也能够应对业务交接的情况，更能够为自动化奠定基础。

业务过程清晰：ODS就是原始信息，不修改；DWD面向基础业务过程；DIM描述维度信息；DWS针对最小场景做指标计算；ADS也要分层，面向跨域的建设，和面向应用的建设；指标可理解：按照一定业务事务过程进行业务划分，明细层粒度明确、历史数据可获取，汇总层维度和指标同名同义，能客观反映业务不同角度下的量化程度；核心模型相对稳定：如果业务过程运行的比较久，过程相对固定，就要尽快下沉到公共层，形成可复用的核心模型；高内聚低耦合：各主题内数据模型要业务高内聚，避免在一个模型耦合其他业务的指标，造成该模型主题不清晰和性价比低。小编有话在传统企业数仓中，业务相对稳定，以范式建模为主。如电信、金融行业等在互联网公司，业务变化快，需求来来回回的改，计算和存储也不是问题，我们更关心快速便捷的响应业务需求，所以以维度建模为主流。

数仓系列传送门：https://blog.csdn.net/weixin_39032019/category_8871528.html

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

一篇文章搞懂数据仓库：四种常见数据模型（维度模型、范式模型等）

一篇文章搞懂数据仓库：四种常见数据模型（维度模型、范式模型等）

今日新闻

点击排行

推荐新闻

图片新闻

专题文章