多元线性回归的系数及其标准差估计 | 您所在的位置:网站首页 › 回归常数方差的推导 › 多元线性回归的系数及其标准差估计 |
专注系列化、高质量的R语言教程 推文索引 | 联系小编 | 付费合集 线性回归是最基础的回归模型,但不知道有多少读者了解它的回归系数以及标准差是如何估计出来的。本篇就来介绍一下,目录如下: 1 符号说明 2 系数估计 3 系数标准差 4 相关函数和操作符 4.1 %*% 4.2 t函数 4.3 solve函数 4.4 diag函数 5 案例 1 符号说明使用表示样本标识,表示样本的因变量取值,表示自变量表示(,其中为自变量个数),表示样本的一系列自变量取值,表示随机项。 线性回归的方程如下: 使用矩阵可以表示为如下形式: 其中,和都来自已有的样本数据。 为的满秩矩阵(为样本数,为自变量个数),行表示样本,列表示变量,也称设计矩阵: 是长度为的列向量: 为待估计的模型系数,是长度为的列向量: 为随机项,也是模型的残差,是长度为的列向量: 从方程组的角度看,和都属于未知数,共计个,而方程个数为,因此方程组是不可解的,它的自由度为未知数个数与方程个数之差,即。 2 系数估计既然方程组是不可解的,我们可以使用优化的方法去估计出“最优”的系数组合。 众所周知,多元线性回归的优化目标是残差平方和最小。残差平方和为 复习一下,转置矩阵有如下运算性质: 因此, 从而, 问题转化为求取得最小值时的。可以看出,是一个二次型,它的最小值在偏导为0处取得。 使用矩阵直接求导有如下运算性质[1]: 其中,、、表示列向量,表示方阵。 因此, 令,即 可得的估计值为 3 系数标准差因为, 显然有。 的方差是下面矩阵的对角线元素: 线性回归假设所有样本的随机项都服从同一个均值为0的正态分布,即 因此, 并且不同样本之间的随机项相互独立。因此, 所以, 进而, 取上面矩阵的对角线元素即为系数估计值的方差: 标准差为: 在回归模型中,系数估计值的标准差一般称为标准误(standard error, se)。其中,的无偏估计为: 4 相关函数和操作符上面推导过程中涉及到一些R语言中的函数和操作符。 4.1 %*%*用于矩阵相乘表示同型矩阵对应位置的元素相乘,而%*%才表示矩阵真正的乘法。 A = matrix(1:12, nrow = 3) B = matrix(1:12, nrow = 4) A %*% B ## [,1] [,2] [,3] ## [1,] 70 158 246 ## [2,] 80 184 288 ## [3,] 90 210 330 4.2 t函数t()函数表示矩阵的转置。 A ## [,1] [,2] [,3] [,4] ## [1,] 1 4 7 10 ## [2,] 2 5 8 11 ## [3,] 3 6 9 12 t(A) ## [,1] [,2] [,3] ## [1,] 1 2 3 ## [2,] 4 5 6 ## [3,] 7 8 9 ## [4,] 10 11 12在R语言中,向量是没有维度的: a |
CopyRight 2018-2019 实验室设备网 版权所有 |