相关性分析的6种方法,不止卡方检验和线性相关系数哦! | 您所在的位置:网站首页 › 两变量相关性检验是什么 › 相关性分析的6种方法,不止卡方检验和线性相关系数哦! |
信息熵,就是一个随机变量的不确定性程度。 条件熵,就是在一个条件下,随机变量的不确定性。 (1)信息增益:熵 - 条件熵 在一个条件下,信息不确定性减少的程度。 Gain(Y,X)=H(Y)-H(Y|X) 信息增益越大,表示引入条件X之后,不纯度减少得越多。信息增益越大,则两个变量之间的相关性越大。 (2)信息增益率 假设,某个变量存在大量的不同值,例如ID,引入ID后,每个子节点的不纯度都为0,则信息增益减少程度达到最大。所以,当不同变量的取值数量差别很大时,引入取值多的变量,信息增益更大。因此,使用信息增益率,考虑到分支个数的影响。 Gain_ratio=(H(Y)-H(Y|X))/H(Y|X) 二、连续与连续变量之间的相关性 1、协方差 协方差,表达了两个随机变量的协同变化关系。如果两个变量不相关,则协方差为0。 Cov(X,Y)=E{[X-E(X)],[Y-E(Y)]} 当 cov(X, Y)>0时,表明 X与Y 正相关; 当 cov(X, Y) |
CopyRight 2018-2019 实验室设备网 版权所有 |