如何分组依据或汇总行

您所在的位置：网站首页 › excel分类汇总合并文本 › 如何分组依据或汇总行

如何分组依据或汇总行

2023-07-25 15:55| 来源: 网络整理| 查看: 265

分组或汇总行项目 07/12/2023

在 Power Query 中，可以通过根据一个或多个列中的值对行进行分组，将各个行中的值分组为单个值。可以从两种类型的分组操作中进行选择：

列分组。

行分组。

在本教程中，你将使用以下示例表。

包含列的列显示 2020 年 (年) 、国家/地区 (美国、巴拿马或加拿大) 、产品 (衬衫或短裤) 、销售渠道 (在线或经销商) ，以及单位 (从 55 到 7500 的各种值)

“分组依据”按钮的查找位置

可以在三个位置找到“ 分组依据 ”按钮：

在“ 开始 ”选项卡上的“ 转换 ”组中。

“

在“ 转换 ”选项卡上的“ 表 ”组中。

右键单击以选择列时，在快捷菜单上。

使用聚合函数按一列或多列分组

在此示例中，你的目标是汇总国家/地区和销售渠道级别的总销量。你将使用 “国家/地区 ”和“ 销售渠道 ”列来执行分组依据操作。

在“开始”选项卡上选择“分组依据”。选择“ 高级 ”选项，以便选择要分组依据的多个列。选择“ 国家/地区 ”列。选择“添加分组”。选择“ 销售渠道 ”列。在 “新建列名称”中，输入 “总单位数”，在“ 操作”中选择“ 总和”，然后在“ 列中”选择“ 单位”。选择“确定”

此操作提供了下表。

可用操作

使用 “分组依据 ”功能，可通过两种方式对可用操作进行分类：

行级别操作列级操作

下表描述了其中每个操作。

操作名称类别说明 Sum 列操作汇总列中的所有值平均值列操作计算列中的平均值中值列操作计算列中的中值 Min 列操作计算列中的最小值 Max 列操作计算列中的最大值 Percentile 列操作使用从 0 到 100 的输入值计算列中的百分位对非重复值进行计数列操作计算列中的非重复值的数目统计行数行操作计算给定组中的总行数对非重复行进行计数行操作计算给定组中的非重复行数所有行行操作输出表值中没有聚合的所有分组行

注意

“计数非重复值”和“百分位数”操作仅在 Power Query Online 中可用。

执行操作以按一个或多个列分组

从原始示例开始，在此示例中，你将创建一个列，其中包含总单位数和另外两列，这些列提供性能最佳产品的名称和销售单位，汇总在国家/地区和销售渠道级别。

使用以下列作为 “分组依据 ”列：

国家/地区销售渠道

按照以下步骤创建两个新列：

使用 Sum 操作聚合“单位”列。将此列命名为 “总单位数”。使用“所有行”操作添加新的 Products 列。

完成该操作后，请注意 Products 列在每个单元格中具有 [Table] 值的方式。每个 [Table] 值都包含原始表中按 “国家/地区” 和“ 销售渠道 ”列分组的所有行。可以选择单元格内的空白区域，以查看对话框底部表内容的预览。

注意

详细信息预览窗格可能不会显示用于分组依据操作的所有行。可以选择 [Table] 值以查看与相应的分组依据操作相关的所有行。

接下来，需要提取“new Products”列内表的“单位”列中值最高的行，并调用该新列“表现最佳产品”。

提取性能最高的产品信息

对于具有 [Table] 值的新“产品”列，可以转到功能区上的“添加列”选项卡，然后从“常规”组中选择“自定义列”，从而创建新的自定义列。

将新列命名为 “表现最佳产品”。在“自定义列公式Table.Max([Products], "Units" )”下输入公式。

该公式的结果将创建一个具有 [Record] 值的新列。这些记录值实质上是只包含一行的表。这些记录包含“产品”列中每个 [Table] 值的“单位”列的最大值的行。

使用此包含 [Record] 值的新 “表现最佳产品 ”列，可以选择展开图标，选择“ 产品 ”和“ 单位 ”字段，然后选择“ 确定”。

删除 Products 列并设置两个新展开的列的数据类型后，结果将如下图所示。

模糊分组

注意

以下功能仅在 Power Query Online 中可用。

若要演示如何执行“模糊分组”，请考虑下图中所示的示例表。

模糊分组的目标是执行对文本字符串使用近似匹配算法的分组依据操作。 Power Query使用 Jaccard 相似性算法来测量实例对之间的相似性。然后，它将聚合分层聚类分析应用于将实例组合在一起。下图显示了预期的输出，其中表将按 “人员 ”列分组。

若要执行模糊分组，请执行本文前面所述的相同步骤。唯一的区别是，这次在“分组依据”对话框中，选择“使用模糊分组检查框。

“分组“分组

对于每组行，Power Query将选取最频繁的实例作为“规范”实例。如果多个实例以相同的频率发生，Power Query将选取第一个实例。在“分组依据”对话框中选择“确定”后，将得到预期的结果。

但是，通过展开模糊分组选项，可以更好地控制模糊分组操作。

以下选项可用于模糊分组：

相似性阈值 (可选) ：此选项指示两个值必须组合在一起的相似程度。最小设置为 0 将导致所有值组合在一起。最大设置为 1 将只允许完全匹配的值组合在一起。默认值为 0.8。忽略大小写：比较文本字符串时，将忽略大小写。默认情况下会启用此选项。通过组合文本部分进行分组：该算法将尝试将文本部分组合 (，例如将 Micro 和 soft 组合到 Microsoft) 以对值进行分组。显示相似性分数：在模糊分组后显示输入值与计算的代表值之间的相似性分数。需要添加“ 所有行 ”等操作，以在逐行级别展示此信息。转换表 (可选) ：可以选择将值映射 (的转换表，例如将 MSFT 映射到 Microsoft) 将它们组合在一起。

在此示例中，将使用转换表来演示如何映射值。转换表有两列：

From：在表中查找的文本字符串。 To：用于替换 From 列中的文本字符串。

下图显示了此示例中使用的转换表。

重要

转换表的列和列名称必须与上面所示相同， (它们必须是“From”和“To”) ，否则Power Query无法识别这些列和列名。

返回到“ 分组依据 ”对话框，展开 “模糊组选项”，将操作从 “计数行 ”更改为“ 所有行”，启用 “显示相似性分数 ”选项，然后选择“ 转换表 ”下拉菜单。

选择转换表后，选择“ 确定”。该操作的结果提供以下信息：

在此示例中，启用了“忽略大小写”选项，因此使用“转换”表的“From”列中的值来查找文本字符串，而不考虑字符串大小写。首先执行此转换操作，然后执行模糊分组操作。

相似性分数也显示在人员列旁边的表值中，该值准确反映了值的分组方式及其各自的相似性分数。可以根据需要展开此列，或使用新“频率”列中的值进行其他类型的转换。

注意

按多个列分组时，如果替换值会增加相似性分数，则转换表在所有列中执行替换操作。

另请参阅

添加自定义列删除重复项

【本文地址】

公司简介

联系我们