08相关分析与关联分析

2023-03-04 08:13| 来源: 网络整理| 查看: 265

08相关分析与关联分析

目录相关分析与关联分析相关分析函数关系和相关关系简单相关分析偏相关分析点二列相关分析非参数相关分析关联分析基本概念与预处理Apriori算法FP-growth算法

相关系数 \(r\) 有如下情况

r=+1表示完全正线性相关r=-1表示完全负线性相关r0表示正线性相关r=0表示不存在线性关系|r| self.minsupport].index) # 初步支持度筛选 k = 0 while len(column) > 1: k = k + 1 column = self.link(column, sign) sf = lambda i: data[i].prod(axis=1, numeric_only=True) # 支持度的计算函数 data_2 = pd.DataFrame(list(map(sf, column)), index=[sign.join(i) for i in column]).T support_series_2 = 1.0 * data_2[[sign.join(i) for i in column]].sum() / len(data) # 更新支持度 column = list(support_series_2[support_series_2 > self.minsupport].index) # 更新后支持度筛选 support_series = support_series.append(support_series_2) column2 = [] for i in column: i = i.split(sign) for j in range(len(i)): column2.append(i[:j] + i[j + 1:] + i[j:j + 1]) # 计算置信度 confidence_series = pd.Series(index=[sign.join(i) for i in column2], dtype='float64') for i in column2: confidence_series[sign.join(i)] = support_series[sign.join(sorted(i))] \ / support_series[sign.join(i[:len(i) - 1])] for i in confidence_series[confidence_series > self.minconfidence].index: # 置信度筛选 final[i] = 0.0 final[i]['confidence'] = confidence_series[i] final[i]['support'] = support_series[sign.join(sorted(i.split(sign)))] # 计算结果 final = final.T.sort_values(['confidence', 'support'], ascending=False) return final# 创建用于分析的实例对象rule = Apriori()# 调用实例对象的apriori方法对mpb数据对象进行规则挖掘res = rule.apriori(mpb)print(res)# support confidence# news-->email 0.184727 0.540640# callreminder-->email 0.100120 0.477597# 将置信度放宽rule = Apriori(minconfidence=0.2)res = rule.apriori(mpb)print(res)# support confidence# news-->email 0.184727 0.540640# callreminder-->email 0.100120 0.477597# email-->news 0.184727 0.242870FP-growth算法

FP-growth算法只需扫描原始数据2遍，将原始数据中的事务压缩到一个FP-tree中，从而达到压缩数据的目的。在FP-tree中找出每个项集的条件模式基、条件FP-tree，递归的挖掘条件FP-tree得到所有的频繁项集。

构造FP-tree主要有两个步骤：从事务数据集中构建FP-tree和从FP-tree中挖掘出规则。具体步骤如下：首先扫描数据集1次，生成 \(1-频繁项集\)，然后将 \(1-频繁项集\)降序排列后放入 \(L\) 频繁项集表中；再次扫描数据集，将每个事务相应项集的关联及频数等信息记入FP-tree中。

示例

from random import randintimport pandas as pdimport statsmodels.api as smimport scipy.stats as statsimport numpy as npimport matplotlib as mplimport matplotlib.pyplot as plt# 分析业务订购之间的关联规则mpb_fpg = pd.read_csv('./data/mpb_fpgrowth.csv')res = mpb_fpg.iloc[[randint(0, 98371) for _ in range(10)]]print(res)# new email callreminder# 58375 new email NaN# 42039 NaN email callreminder# 28960 NaN email callreminder# 20923 NaN email NaN# 71076 new NaN NaN# 89245 NaN email NaN# 31867 NaN email NaN# 90654 NaN email NaN# 17114 NaN email NaN# 37505 NaN email callreminder# fp_growth支持python2，不支持python3from fp_growth import find_frequent_itemsets as ffi# find_frequent_itemsets可用于频繁项集的挖掘# 参数1：事务数据，参数2：最小支持度计数=支持度阈值*样本量for itemset in ffi(np.array(mpb_fpg), minimum_support=int(len(np.array(mpb_fpg)) * 0.1)): if nan in itemset: # 舍去含有NaN的项集 pass elif len(itemset) == 1: # 舍去1-项集 pass else: # 该算法是逆向输出结果，将列表反序即可得到结果 print(itemset[::-1]) # ['news', 'email']# ['callreminder', 'email]# 结果输出满足最小支持度0.1的结果与Apriori算法一致，且效率更高

【本文地址】

公司简介

联系我们