【数据挖掘

2024-07-16 14:15| 来源: 网络整理| 查看: 265

假设我们有以下数据集：

数据集： Transaction 1: {牛奶, 面包, 蛋} Transaction 2: {面包, 小麦, 橙汁} Transaction 3: {牛奶, 小麦, 蛋} Transaction 4: {面包, 牛奶, 小麦, 蛋} Transaction 5: {面包, 牛奶, 橙汁}

现在我们将按照Apriori算法的步骤进行求解：

步骤1：准备数据集数据集已经给定如上所示。

步骤2：确定最小支持度阈值假设我们选择最小支持度阈值为2，表示一个项目集在数据集中至少出现2次才被认为是频繁项集。

步骤3：生成候选项集初始候选项集包含单个项目，即C1 = {牛奶, 面包, 蛋, 小麦, 橙汁}。

步骤4：计算候选项集的支持度计算候选项集的支持度，统计每个候选项集在数据集中的出现次数。

C1的支持度计数：牛奶: 2 面包: 4 蛋: 2 小麦: 3 橙汁: 2

步骤5：筛选频繁项集根据最小支持度阈值，筛选出支持度大于或等于2的项集作为频繁项集。

L1 = {面包, 小麦}

步骤6：生成关联规则对于频繁项集L1，生成其所有可能的关联规则。

关联规则集R1 = {面包 -> 小麦, 小麦 -> 面包}

步骤7：计算关联规则的置信度计算关联规则的置信度，即计算规则的条件发生时，结论也发生的概率。

置信度计算：面包 -> 小麦：支持度(面包, 小麦) / 支持度(面包) = 3/4 = 0.75 小麦 -> 面包：支持度(面包, 小麦) / 支持度(小麦) = 3/3 = 1.00

步骤8：筛选强关联规则根据设定的最小置信度阈值，筛选出置信度大于或等于0.7的关联规则作为强关联规则。

强关联规则集R1 = {面包 -> 小麦, 小麦 -> 面包}

通过以上步骤，我们完成了Apriori算法对给定数据集的求解。不过还有的是这里只展示两个

【本文地址】

公司简介

联系我们