表结构数据 | 您所在的位置:网站首页 › sql两张表横向合并 › 表结构数据 |
什么是表结构数据 表结构数据中的“表”来源于关系型数据库中的“table”,关系型数据库中的数据都是以表结构进行存储的,它是数据分析工具中最基本的存储结构。在关系型数据库中一个数据库可以有多个数据表,每个数据表都是由固定列和任意行构成的二维表结构的数据集。表中的列称为字段,表中的行称为记录,并以字段为基本的存储单位和计算单位。 除了Excel和WPS之外的其他分析工具,都是使用二维表结构的存储格式。 表是相关字段的集合,而不相关的字段是存放在不同数据表中的,如果要汇总不同表中的数据,就需要把多个数据表连接起来,生成一个完整的数据源来提取我们需要的数据进行汇总分析。横向连接就是用表中共有的关键字段,将多个表连接起来补充字段信息。 多表连接的结果通过三个属性决定: 方向性:在外连接中写在前边的表为左表、写在后边的表为右表。主附关系:主表要出所有的数据范围,附表与主表无匹配项时标记为null,内连接时无主附表之分。对应关系:关键字段中有重复值的表为多表,没有重复值的表为一表。对应关系: 一对一连接方式: 两种基本的连接方式:内连接和外连接(左连接、右连接、全连接)。 表结构数据中的字段作为不同分析角色使用时也被称为变量,分为离散型变量和连续型变量。离散和连续是数学上的概念,离散指“各自分离且不同”,连续指“构成一个不间断的整体”。 不同的分析角色分为维度和度量。 维度:一般为离散型变量,用来分组的分类字段。 名义型变量:字段中的值与值之间没有顺序关系,只单纯用来定义名称的变量,如:姓名、性别、血型等。 有序型变量:字段中的值与值之间有顺序关系但不连续的变量,如:学历、职称、 舱位等。 度量:一般为连续型变量,用来汇总观测的指标值。 连续型变量:字段中的值与值之间不仅有顺序关系而且值与值之间取值连贯的变量,如:年龄、价格、数量等。 常见的聚合方法:总和、平均值、计数、最大值、最小值等。 聚合度量表中的维度可以进行分组汇总,表中的度量可以进行聚合运算。 维度的汇总是将原始数据中相同的多行值汇总为一行值的过程。度量的聚合是将原始数据中相同维度值对应的多个度量值按照运算规则计算为一个值的过程。一对多的表连接时,一表的度量值会在多表重复项下翻倍。 多对多的表连接时,多表的度量值都会翻倍。 因此,在一对多的表连接时,一表汇总维度,多表聚合度量,而多对多的表连接一般不用作汇总分析。 关键字段有非匹配项时,出维度的表作为主表进行连接时可以保证维度的完整性,出度量的表作为主表进行连接时可以保证度量值的准确性。因此,我们可以根据业务需求选择合适的连接方式。 表结构数据中的纵向合并就是在一个表中追加另一个表中的记录。 两张表必须拥有相同数量的字段。两张表字段的顺序必须相同。两张表对应字段的数据类型必须一致。 |
CopyRight 2018-2019 实验室设备网 版权所有 |