第3章 多元回归分析:估计 |
您所在的位置:网站首页 › 导论术语的含义 › 第3章 多元回归分析:估计 |
第3章 多元回归分析:估计
3.1 复习笔记
一、使用多元回归的动因 1.含有两个自变量的模型 (1)多元回归分析 除主要的变量外,把其他可观测因素也包括在回归模型中。可以把含有两个自变量的模型写成: y=β0+β1x1+β2x2+u 其中,β0是截距,β1度量了在其他条件不变情况下Y相对x1的变化,而β2则度量了在其他条件不变情况下Y相对x2的变化。 多元回归分析对推广变量之间的函数关系也有帮助。一个重要的差别是如何对参数进行解释。 (2)多元回归分析的假定 在含有两个自变量的模型中,u与x1和x2如何相关的关键假定是: E(u|x1,x2)=0 对上式的解释与对简单回归分析的假定SLR.4的解释相似。它意味着,对总体中x1,x2和的任何值,无法观测因素的平均值都等于零。 2.含有k个自变量的模型 (1)多元回归模型 一般多元性回归模型在总体中可以写成: y=β0+β1x1+β2x2+…+βkxk+u 其中,β0为截距(intercept),β1是与x1相联系的参数,β2是与x2相联系的参数,等等。由于有k个自变量和一个截距项,所以方程包含了k+1个(未知的)总体参数。把这种不同于截距的参数称为斜率参数。 多元回归的术语类似于简单回归的术语。 (2)多元回归模型的关键假定 用条件期望的形式可以表示为: E(u|x1,x2,…,xk)=0 该假定表示不可观测的误差项中的所有因素都与解释变量无关。任何一个导致u与某个自变量相关的问题,都会导致式假定不成立。 二、普通最小二乘法的操作和解释 1.如何得到OLS估计值 (1)包含两个自变量模型的估计 在形式上,被估计的OLS方程为: 普通最小二乘法选择能最小化残差平方和的估计值。即要使下式尽可能小: 下标i表示观测序号。第二个下标只是区别不同自变量的方法。 (2)含有k个自变量模型的估计 OLS方程为: 该方程被称为OLS回归线或样本回归函数。 所选择的k+1个OLS估计值最小化残差平方和: 使用多元微积分求解可得k+1个线性方程: 这个方程组通常被称为OLS一阶条件。必须假定上式中的方程只能得到 2.对OLS回归方程的解释 (1)包含两个自变量模型的解释 ①方程中的截距项 ②估计值 因此能在给定x1和x2的变化的情况下,预测Y的变化。截距项与Y的变化没有关系。当x2固定,因而∆x2=0时,于是 (2)包含多个自变量模型的解释 OLS回归线: 用变化量表示为: x1的系数度量的是,在所有其他条件不变的情况下,因提高一个单位的x1而导致 3.多元回归中“保持其他因素不变”的含义 因为多元回归分析中斜率参数的偏效应解释可能会导致一些混淆,所以要尽量避免这个问题。多元回归有效地模拟了对自变量的值不加限制的情况。 多元回归分析能在非实验环境中进行自然科学家在受控实验中所能做的事情:保持其他因素不变。 4.同时改变不止一个自变量 通过方程 5.OLS的拟合值和残差 (1)拟合值和残差 在得到OLS回归线式后,对每次观测都得到一个拟合值或预测值。对观测 在求拟合值,不应该忘记截距项;否则,结果就极具误导性。 规范地讲,对任一观测i,实际值yi都不等于预测值 每次观测都有一个残差。若 (2)OLS拟合值和残差的重要性质 ①残差的样本平均值为零。 ②OLS拟合值和OLS残差之间的样本协方差值为零。 ③点 6.对多元回归“排除其他变量影响”的解释 (1)在简单回归分析中,由于回归中根本就不存在其他变量,所以就不用排除其变量的影响。 (2)考虑k=2个自变量的情形 一种表示 其中, 该表达式还给出 (3)在一个含有k个解释变量的一般模型中, 7.简单回归和多元回归估计值的比较 (1)简单回归和多元回归估计值的关系 Y对x1的简单回归所得到的回归估计值与将y对x1和x2作OLS回归时所得到x1的偏回归估计值的关系为: 其中, (2)两者相等的特殊情况 ①样本中x2对y的偏效应为零,即 ②样本中x1和x2不相关,即 (3)在含有k个自变量的情形中两者相等的特殊情况 ①从x2到xk所有的OLS系数都是零; ②x1与x2,x3,…,xk都不相关。 实际上,这两个条件都不太可能成立。但如果所有从x2到xk的系数都很小,或者x1与其他自变量之间的样本相关关系都不显著,那么x1影响Y的简单回归估计值和多元回归估计值可能会很相似。 8.拟合优度 (1)总平方和(SST)、解释平方和(SSE)和剩余平方和或残差平方和(SSR) 可以证明SST=SSE+SSR,将方程两边同时除以SST得到:SSR/SST+SSE/SST=1。 (2)拟合优度 ①R2被定义为: R2≡SSE/SST=1-SSR/SST 而且被解释为Yi的样本变异中被OLS回归线所解释的部分。根据定义,R2是一个介于0和1之间的数。 ②R2等于yi的实际值与其拟合值 ③有关R2的一个重要事实 在回归中多增加一个自变量后,它绝对不会减小,而且通常会增大。因为在模型中多增加一个回归元时,按照定义,残差平方和绝对不会增加。 回归中增加任何一个变量都不会使R2减小的事实,使得用R2作为判断是否应该在模型中增加一个或几个变量的工具很不适当。判断一个解释变量是否应放入模型的因素是,这个解释变量在总体中对y的偏效应是否非零。 9.过原点的回归 (1)过原点回归的定义 具体方程如下: 其中,估计值上面的符号“~”用以区别带截距的OLS回归。当x1=0,x2=0,…,xk=0时,则预测值也为零。在这种情况下, (2)过原点回归的特点 ①OLS残差的样本平均不再是零。 ②如果R2被定义为R2=1-SSR/SST,而SSR现在是 R2实际上可能为负。这意味着样本平均 ③通过原点的回归有一个重要缺陷:如果总体模型中的截距项β0不是零,那么斜率参数的OLS估计量将有偏误。在某些情况下,这种偏误可能会很严重。当β0确实是零时,估计带截距项方程的代价是,OLS斜率估计量的方差会更大。 三、OLS估计量的期望值 以下假定都是对简单回归模型假定的直接推广,而且在这些假定之下,OLS估计量是总体参数的无偏估计。 1.基本假定与OLS的无偏性 (1)假定MLR.1(线性于参数) 总体模型可写成: y=β0+β1x1+β2x2+β3x3+…+βkxk+u 其中β0,β1,…,βk是未知参数(常数),而u则是无法观测的随机误差或随机干扰。 模型的一个重要特点是,它是参数β0,β1,…,βk的线性函数。 (2)假定MLR.2(随机抽样) 有一个包含n次观测的随机样本{(xi1,xi2,…,xik,yi):i=1,2,…,n},它来自假定MLR.1中的总体模型。 写出一次特定观测i的方程: yi=β0+β1xi1+β2xi2+…+βkxik+ui 记住i表示观测次数,x的第二个角标表示变量序号。 借助模型y=β0+β1x1+β2x2+β3x3+…+βkxk+u ,从y对x1,x2,…,xk的回归中得到的OLS估计量 (3)假定MLR.3(不存在完全共线性) ①假定的主要内容 在样本(因而在总体中),没有一个自变量是常数,自变量之间也不存在严格的线性关系。 如果方程中的一个自变量刚好是其他自变量的一个线性组合,就说这个模型遇到完全共线性的问题,也就不能由OLS来估计。假定MLR.3允许自变量之间存在相关关系,只是不能完全相关。 ②自变量完全相关的方式 a.不要在同一个回归方程中包括以不同单位度量的同一个解释变量。一个自变量也可能以更微妙的方式成为另一个自变量的倍数。 b.自变量可能完全线性相关的另一种方式是,一个自变量恰好可以表示成其他两个或多个自变量的线性函数。 (4)假定MLR.4(条件均值为零) 给定自变量的任何值,误差u的期望值为零,即: E(u|x1,x2,…,xk)=0 ①假定MLR.4可能不成立的情况: a.模型方程中被解释变量和解释变量之间的函数关系被错误地设定:当一个变量在总体中应该以对数形式出现时,却使用了其水平值等等。 b.漏掉一个与x1,x2,…,xk中任何一个自变量相关的重要因素,也能导致MLR.4不成立。 c.u还可能以其他方式与一个解释变量相关。 当假定MLR.4成立时,则模型具有外生解释变量。如果出于某种原因x仍与u相关,那么xj就被称为内生解释变量。 ②假定MLR.4与假定MLR.3相当不同,不能将它们混淆。 假定MLR.3排除了自变量和因变量之间的某些关系,而与u无关。在进行OLS估计时,就会得出假定MLR.3成立与否。 假定MLR.4则限制了u中无法观测因素与解释变量之间的关系,是一个关键假定。但无法确切地知道,无法观测因素的平均值是否与解释变量无关。 (5)定理3.1:OLS的无偏性 在假定MLR.1~MLR.4下,下式对总体参数βj的任意值都成立 即OLS估计量是总体参数的无偏估计量。 OLS在假定MLR.1~MLR.4下是无偏的,是指,将用来得到OLS估计值的程序用于各种可能的随机样本时,这个程序是无偏的。 2.在回归模型中包含了无关变量 在多元回归分析中包含一个无关变量或对模型进行过度设定,是指尽管一个(或多个)自变量在总体中对y没有影响,却被放到了模型中(即它的总体系数为零)。 在一个多元回归模型中包含一个或多个无关变量,或对模型进行了过度设定,并不会影响到OLS估计量的无偏性。包含无关变量对OLS估计量的方差具有不利影响。 3.遗漏变量的偏误:简单情形 假设遗漏了一个实际上应包括在真实(或总体)模型中的变量,这通常被称为排除一个有关变量或对模型设定不足的问题。 (1)遗漏变量偏误 简单回归因遗漏一个变量而误设时所具有的性质。由于模型满足假定MLR.1~MLR.4,所以 则 此时的偏误源自遗漏的解释变量x2,所以方程右边的项时常被称为遗漏变量偏误。 (2) ①第一种情况:若β2=0,则 ②第二种情况:若 若 当x1和x2相关时, (3)偏误的符号与大小 ① 表3-1 遗漏变量时 ②偏误的大小由β2和 (4)与偏误有关的术语 在模型漏掉一个变量的背景下,若 向零的偏误是指 4.遗漏变量的偏误:更一般的情形 一个解释变量与误差之间存在相关性,一般会导致所有OLS估计量都产生偏误。 假设总体模型y=β0+β1x1+β2x2+β3x3+u,满足假定MLR.1~MLR.4,但遗漏了变量x3并估计了模型 假设x2和x3无关,但x1和x3却相关。此时 一种近似方法在实践中常常很有用。如果假定x1和x2无关,则: 四、OLS估计量的方差 1.同方差性与OLS斜率估计量的抽样方差 (1)假定MLR.5(同方差性) 给定任意解释变量值,误差项u都具有相同的方差。即: 假定MLR.5意味着,以解释变量为条件,不管解释变量出现何种组合,误差项u的方差都是一样的。如果这个假定不成立,那么模型就像在两变量情形中一样表现出异方差性。 假定MLR.1~MLR.5一起被称为(横截面回归的)高斯-马尔可夫假定。 (2)定理3.2:OLS斜率估计量的抽样方差 在假定MLR.1~MLR.5之下,以自变量的样本值为条件,对所有的j=1,2,…,k,都有: 其中, 在得到这个公式的过程中,用到了所有高斯-马尔可夫假定。 2.OLS方差的成分:多重共线性
(1)误差方差σ2 σ2越大意味着OLS估计量的方差就越大。方程中的“噪音”越多(σ2越大),使得估计任何一个自变量对y的偏效应都越困难,这将通过OLS斜率估计量的较大方差反映出来。由于σ2是总体的一个特征,所以它与样本容量无关。 对于一个给定的因变量y,确实只有一个办法减少误差方差,即在方程中增加更多的解释变量(将某些因素从误差项中剔除出来)。 (2)xj的总样本变异,SSTj xj的总变异越大, 有一种办法来提高每个自变量的样本变异:扩大样本容量。实际上,当从总体中随机抽样时,随着样本容量越来越大,SSTj将无限递增。这是方差中系统地取决于样本容量的部分。 若SSTj很小, (3)自变量之间的线性关系,
①k=2的情形:y=β0+β1x1+β2x2+u 。
②在一般情况下, ③另一个极端情形 ④还有一种更重要的情形是 (4)多重共线性的界定和解决方法 ①多重共线性的界定 在 很大的 ②结论 虽然不能清楚地界定多重共线性问题,但在所有其他条件都不变的情况下,就估计βj来说,xj与其他自变量之间越不相关越好。 另外一个重要问题是,虽然某些自变量之间高度相关,但对模型中其他参数的估计效果而言可能并不重要。 ③“解决”多重共线性问题的方法: a.搜集更多的数据外; b.对于一个给定的数据集,可以试着从模型中去掉一些其他自变量,以努力消除多重共线性。但去掉总体模型中的一个变量常常会导致偏误。 3.误设模型中的方差 在一个回归模型中是否包含一个特定变量的决策,可以通过分析偏误和方差之间的替换关系而做出。 将满足高斯-马尔可夫假定的真实总体模型写成:y=β0+β1x1+β2x2+u, 假定x1和x2不相关,可以得到如下结论: (1)当β2≠0时, (2)当β2=0时, ①若β2=0, ②β2≠0的情况。不把x2放到模型中,将导致β1的估计量有偏误。 当β2≠0时,模型中应该包括x2的原因: a. b.随着x逐渐变大, c.方差公式取决于样本中xi1和xi2的值,这就为 4.估计σ2:OLS估计量的标准误 (1)残差和自由度 将每个βi用其OLS估计量取代后,就得到OLS残差: 在简单回归情形中,这将导致一个有偏估计量。在一般多元回归情形中,σ2的无偏估计量是: n-k-1是含有n个观测和k个自变量的一般OLS问题的自由度。即:df=n-(k+1)=观测次数-估计参数的个数。 (2)定理3.3:σ2的无偏估计 在高斯-马尔可夫假定MLR.1~MLR.5下,E(σ2)=σ2。
(3) 为了构造置信区间并进行检验,估计 由于σ未知,所以用其估计量 如果误差表现出异方差性,标准误公式就不是 五、OLS的有效性:高斯-马尔可夫定理 1.最优线性无偏估计量 (1)估计量:它是一个可应用于任何一个数据样本,并产生一个估计值的规则。 (2)无偏估计量:如果βj的一个估计量,对任意β0,β1,…,βk都有 (3)“线性”:βj的一个估计量 其中每个wij都可以是所有自变量样本值的一个函数。 (4)“最优”:最优被定义为最小方差。 2.定理3.4:高斯-马尔可夫定理 (1)主要内容 在假定MLR.1~MLR.5下, 假定MLR.1~MLR.5被称为(横截面数据分析的)高斯-马尔可夫假定。 (2)高斯-马尔可夫定理的重要性 当这个标准假定集成立时,不需要再去寻找其他无偏估计量:没有一个会比OLS更好。 如果高斯-马尔可夫假定中的任何一个不成立,那么这个定理也就不再成立。零条件均值的假定(假定MLR.4)不成立会导致OLS产生偏误,异方差性(假定MLR.5不成立)虽不致使OLS有偏,但它在线性无偏估计量中不再具有最小方差。 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |