多元统计分析(二):多元正态分布 | 您所在的位置:网站首页 › 如何判断xy是否相互独立例题 › 多元统计分析(二):多元正态分布 |
正态分布是数理统计中最基本的分布,是假设检验的基础。在多元统计分析中,我们也需要先对多元正态分布进行学习,进而才能研究后续的多元模型。 1.概率密度函数假设一个p维的正态分布向量组 Y=Y=\begin{bmatrix} Y_{1}\\Y_{2}\\...\\Y_p \end{bmatrix} ,具有均值向量 \mu ,协方差矩阵 \Sigma ,记作 Y\sim N_p(\mu,\Sigma) 它的概率密度函数是一个p元函数: f(Y)=\frac{1}{(2\pi)^{\frac{p}{2} }|\Sigma|^{\frac{1}{2} }}e^{-\frac{(Y-\mu)'\Sigma^{-1}(Y-\mu)}{2}} 从概率密度函数中也能看出,多元正态分布只取决于它的均值向量和协方差矩阵。 多元正态分布的一个常见特例是我们概统中学过的二元正态分布: Y=Y=\begin{bmatrix} Y_{1}\\Y_{2} \end{bmatrix}\sim N_2(\mu,\Sigma)=BN(\mu_1,\sigma_1,\mu_2,\sigma_2,\rho) 其中 \mu=\begin{bmatrix} \mu_1\\\mu_2 \end{bmatrix},\Sigma=\begin{pmatrix} \sigma_1^2& \rho\sigma_1\sigma_2\\ \rho\sigma_1\sigma_2&\sigma_2^2 \end{pmatrix} 带入上面的公式,可以得到二元正态分布的概率密度函数: f(Y_1,Y_2)=\frac{1}{2\pi\sigma _1\sigma _2\sqrt[]{1-\rho ^2} }e^{-\frac{(\frac{Y_1-\mu_1}{\sigma _1} )^2+(\frac{Y_2-\mu_2}{\sigma _2})^2-2\rho \frac{Y_1-\mu_1}{\sigma _1}\frac{Y_2-\mu_2}{\sigma _2} }{2(1-\rho ^2)} } 如果把二元正态分布的图像沿水平面方向横切,可以得到一个椭圆曲线,这部分内容可以参考补充笔记: 2.性质我们来进一步探究多元正态分布的性质,首先假设 Y\sim N_p(\mu,\Sigma) 2.1线性组合的正态性多元正分布的线性组合仍然服从正态分布: 假设 a=\begin{bmatrix} a_1\\ a_2\\ ...\\ a_p \end{bmatrix} 则 z=a'Y\sim N(a'\mu,a'\Sigma a) 同时如果 Y 的全部线性组合都服从一元正态分布,那么 Y 也服从多元正态分布。 这个性质可以推广到一组线性组合: 一组r个线性组合,系数矩阵A=\begin{pmatrix} a_{11}&a_{12} &... &a_{1p} \\ a_{21}&a_{22} &... &a_{2p} \\ ...& & & \\ a_{r1}&a_{r2} &... &a_{rp} \end{pmatrix} ,截距项 b=\begin{bmatrix} b_1\\ b_2\\ ...\\ b_p \end{bmatrix} 则 AY'\sim N_r(A\mu A'+b,A\Sigma A') 2.2分块将原正态分布向量组分块为 Y=\begin{bmatrix} Y_{(1)}\\Y_{(2)} \end{bmatrix} ,分别含有 r,p-r 个向量属性。 分块后 \mu=\begin{bmatrix} \mu_{(1)}\\ \mu_{(2)} \end{bmatrix},\Sigma=\begin{pmatrix} \Sigma_{11}&\Sigma_{12} \\ \Sigma_{21}&\Sigma_{22} \end{pmatrix} 则分块矩阵同样服从正态分布: Y_{(1)}\sim N_r(\mu_{(1)},\Sigma_{11}) Y_{(2)}\sim N_{p-r}(\mu_{(2)},\Sigma_{22}) 而且对于多元正态分布 \Sigma_{12}=0 等价于 Y_{(1)},Y_{(2)} 独立 同样,分块的一个特例是某一分块只有一个向量 Y_{j} ,服从一元正态分布 Y_j\sim N(\mu_j,\sigma_j) 2.3 条件分布同样按照上面的分块形式,分块后的条件分布同样服从正态分布 Y_{(1)}|Y_{(2)}\sim N_{r}(\mu_{(1)}+\Sigma_{12}\Sigma_{22}^{-1}(Y_{(2)}-\mu_{(2)}),\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}) 这个可以通过条件分布公式证明 f_{Y_{(1)}|Y_{(2)}}(y)=\frac{f_Y(y)}{f_{Y_{(2)}}(y)} 在条件分布公式中,可以发现 E(Y_{(1)}|Y_{(2)}) 是关于 Y_{(2)} 的线性函数,同时 Cov(Y_{(1)}|Y_{(2)}) 不依赖于 Y_{(2)} 的取值。 另外,在后面学习多元回归的时候,我们会学到 \Sigma_{12}\Sigma_{22}^{-1} 被称为回归系数矩阵,是被解释变量组 Y_{(1)} 对解释变量组 Y_{(2)} 进行回归的系数矩阵。我们可以简单利用一元线性回归来理解它: 对于一元回归, \Sigma_{12}=S_{xy},\Sigma_{22}=S_{xx} ,那么 \Sigma_{12}\Sigma_{22}^{-1} 可以看做是 \frac{S_{xy}}{S_{xx}}=\hat{\beta_1} 2.4加和类似于一元正态分布的正态分布再生定理:正态分布的线性组合服从正态分布。多元正态分布同样有类似的性质: 如果 X\sim N_{p}(\mu_x,\Sigma_x),Y\sim N_{p}(\mu_y,\Sigma_y) ,则 Y\pm X\sim N_p(\mu_y\pm \mu _x,\Sigma_y\pm \Sigma_x) 不过要注意两个正态分布向量组的维数要相等,都是 p 2.5 标准多元正态分布类比一元正态分布有标准化后的 z\sim N(0,1) ,多元正态分布仍然有标准化向量组: Z=\frac{Y-\mu}{\Sigma^{\frac{1}{2} }}\sim N_p(0,I) 其中 I 是单位矩阵。 2.6 二次型一系列标准正态分布随机变量的平方和服从卡方分布: \sum_{i=1}^{p}z_i^2 \sim \chi^2(p) 对于上一部分的标准化向量组 Z ,有 ZZ'=\sum_{i=1}^{p}z_i^2 \sim \chi^2(p) 或者对于任意正态分布向量组 Y\sim N_p(\mu,\Sigma) ,有 (Y-\mu)'\Sigma^{-1}(Y-\mu)\sim \chi^2(p) 而且, (Y-\mu)'\Sigma^{-1}(Y-\mu) 也可以看做是 Y 和它均值向量 \mu 的马氏距离的平方。 3.样本3.1最大似然估计这里只介绍最大似然法来估计多元正态分布的 \mu,\Sigma : 假设有 n 个关于总体的观测样本 y=\{y_1,y_2...y_n\} 构造似然函数 L(y)=\prod_{i=1}^{n}f(y_i;\mu,\Sigma) (\hat \mu,\hat{\Sigma})=argmax\{lnL(y)\}\propto argmax\{\frac{n}{2}ln(|\Sigma|)-\frac{1}{2} \sum_{i=1}^{n}(y_i-\mu)'\Sigma^{-1}(y_i-\mu) \} 最后可以得到 \hat \mu=\bar y,\hat \Sigma=\frac{1}{n}\sum_{i=1}^{n}(y_i-\bar y)(y_i-\bar y)' 注意这里的 \hat \Sigma 是有偏估计,而一般我们用 S=\frac{n}{n-1}\hat \Sigma 作为样本协方差矩阵,是无偏估计。 3.2样本分布对于样本 y=\{y_1,y_2...y_n\}有 样本均值向量 \bar y=\frac{1}{n} \sum_{i=1}^{n}y_i 样本协方差矩阵 S=\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar y)(y_i-\bar y)'则样本均值向量服从正态分布 \bar y\sim N_p(\mu,\frac{\Sigma}{n}) 要分析样本协方差矩阵的分布,我们首先需要引入一个新的分布:Wishart分布。 定义:一个p维的正态分布向量组 W=\begin{bmatrix} W_1\\ W_2\\ ...\\ W_p \end{bmatrix}\sim N_p(0,\Sigma) ,有一组q个样本观测取自该正态分布总体 w_i,i=1,2...q ,则 \sum_{i=1}^{q} w_iw_i'\sim W_p(q,\Sigma) 因此可以证明,样本协方差矩阵 (n-1)S\sim W_p(n-1,\Sigma) 此外,和一维情形类似, \bar y 和 S 是独立的。 4.正态性检验在回归分析中我们讨论过如何检验一维数据的正态性假设,在多元正态性检验中,我们需要: 检验每个属性向量是否服从一维正态分布检验每两个属性向量的散点图是否呈现线性关系(这里解释一下,因为多元正态分布只由均值向量和协方差矩阵决定,均值决定正态分布的平均取值大小,协方差决定每两个向量的线性关系,变量之间不存在非线性关系。如果有非线性关系,则很可能违背了正态分布假设)在2.6中,我们知道(Y-\mu)'\Sigma^{-1}(Y-\mu)\sim \chi^2(p)。类比一维数据利用Q-Q图观察一维数据和正态分布的差异是否显著,在多元中利用Q-Q图观察多元数据的二次型和卡方分布的差异是否显著。这一篇笔记我们讨论了多元正态分布的一些内容,为后续模型构建打下了基础。下一篇笔记开始我们将正式开始学习多元统计检验和多元统计模型。 参考资料:Methods of Multivariate Analysis 3rd edition,厦门大学多元统计分析课件 如果觉得有用,不妨点个赞吧 |
CopyRight 2018-2019 实验室设备网 版权所有 |