什么是协方差(covariance)?(延伸到 协方差矩阵、多元高斯分布、PCA) | 您所在的位置:网站首页 › 两个协变量的协方差分析 › 什么是协方差(covariance)?(延伸到 协方差矩阵、多元高斯分布、PCA) |
协方差(covariance )是一个统计量,是对一个样本的某一统计特性给出的一个估算量。 常见统计量 均值估算的是样本集合的平均水平。 方差估算的是样本集合的散布度,单元维度偏离其均值的程度。 那协方差(covariance)呢?如果是一维样本不存在协方差(covariance), 如果是二维(多维)样本呢?比如统计多个学科的考试成绩。 仿照方差的定义: 来度量各个维度偏离其均值的程度,协方差(covariance)可以这么来定义: 直觉理解一下就是:如果有X,Y两个变量,每个时刻(或点)的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值(其实是求“期望”,但就不引申太多新概念了,简单认为就是求均值了)。 可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?你变大,同时我也变大,说明两个变量是同向变化正相关的,这时协方差就是正的。 从数值来看,协方差的数值越大,两个变量同向(正相关)程度也就越大。反之亦然。 variance和covariance的定义比较协方差矩阵是一个描述多个随机变量之间的协方差的方阵。协方差是两个随机变量的线性相关程度的度量。 如果有n个随机变量X1,X2,...,Xn,那么它们的协方差矩阵Σ可以表示为 Σ是各主成分对数据方差的贡献,也就是各主成分的长度。它们不是权重,因为它们不一定加起来等于1。 奇异值分解可以看作是对矩阵S进行一个旋转、缩放和再旋转的操作,使得S变成一个对角矩阵³。这样可以提取出S的主要特征,例如方向、变化程度和线性相关性⁴。 应用:多维度高斯分布多维高斯分布里面有两个参数, 一个是 一个是 本质上是找一个更低维度的表面(空间),使得投影到这个表面的数据与原数据之间的误差(距离)最小。 实现算法:
在经过svd分解之后,会得到三个矩阵:U、S和V。其中U和V是正交矩阵,S是对角矩阵,其对角线上的元素是协方差矩阵的奇异值,也就是特征值的平方根¹。这些奇异值可以反映协方差矩阵的主要成分,也就是数据的主要变化方向²,我们主要用的是U,因为根据彻底理解SVD奇异值分解,我们知道U的列向量是 Col( 还有,U的列向量是从左到右,重要性逐步降低的,所以要降到k维,只需要取U的前k个列向量,这样就把原来n维的坐标系,降到了k维单位正交的坐标系。 而新的数据集的值则可以表示为: |
CopyRight 2018-2019 实验室设备网 版权所有 |