伍德里奇计量经济学第01讲(Ⅲ) | 您所在的位置:网站首页 › 张正是什么电影 › 伍德里奇计量经济学第01讲(Ⅲ) |
第01讲 简单回归模型1.6 OLS估计量的期望值和方差 我们把 \hat{\beta}_0 和 \hat{\beta}_1 看作是在总体模型中出现的参数 \beta_0 和 \beta_1 的估计量,来研究\hat{\beta}_0 和 \hat{\beta}_1在从总体中抽取不同随机样本时的分布性质。 (1)OLS的无偏性 我们首先在一组简单假定的基础上构建OLS的无偏性。(SLR表示simple linear regression,简单线性回归。) 第一个假定定义了总体模型。 假定SLR.1(线性于参数):在总体模型中,因变量 y 与自变量 x 和误差(干扰)项 u 的关系如下 y=\beta_0+\beta_1 x+u\qquad(1.20) \\ 其中, \beta_0 和 \beta_1 分别表示总体的截距和斜率参数。 第二个假定是我们假设数据是作为随机样本得到的。 假定SLR.2(随机抽样):我们具有一个服从总体模型方程(1.20)的随机样本 \{(x_i,y_i):i=1,2,\cdots,n\} ,其样本容量为 n 。 我们可以用随机样本的形式将式(1.20)写成 y_i=\beta_0+\beta_1 x_i+u_i,\quad i=1,2,\cdots,n \qquad(1.21) \\ u_i 是第 i 次观测的误差或者干扰,其包含了第 i 次观测中影响 y_i 的不可观测因素。 根据 \hat{\beta}_0,\hat{\beta}_1 的表达式可知,除非解释变量中有一些样本变异,否则OLS斜率和截距的估计值便没有定义。 因此第三个假定时要求解释变量有变异。 假定SLR.3(解释变量的样本有变异): x 的样本结果即 \{x_i,i=1,2,\cdots,n\} 不是完全相同的数值。 这是一个很弱的假定(当然不值得强调,但却是必需的)。如果总体中的 x 有变异,那么,除非总体变异非常之小或者样本容量太小,否则 x 的随机样本通常也存在变异。 最后,为了得到 \beta_0 和 \beta_1 的无偏估计量,我们需要引入第四个假定:零条件均值假定。 假定SLR.4(零条件均值):给定解释变量的任何值,误差的期望值都为零。即 E(u\mid x)=0 \\ 对一个随机样本,这个假定意味着对所有的 i=1,2,\cdots,n ,都有 E(u_i\mid x_i)=0 。 现在,我们准备证明OLS估计量的无偏性。 斜率 \beta_1 的估计量 \hat{\beta}_1 的表达式为 \hat{\beta}_1=\frac{\sum_{i=1}^n(x_i-\bar{x})y_i}{\sum_{i=1}^n (x_i-\bar{x})^2} \\ 因为现在我们对 \hat{\beta}_1 在所有可能的样本中的行为感兴趣,所以\hat{\beta}_1应被看成一个随机变量。 为了简化起见,我们将 x_i 的总变异定义为 SST_x=\sum_{i=1}^n(x_i-\bar{x})^2 \\ 则有 \begin{aligned} \hat{\beta}_1&=\frac{\sum_{i=1}^n(x_i-\bar{x})y_i}{\sum_{i=1}^n (x_i-\bar{x})^2}\\ &=\frac{\sum_{i=1}^n(x_i-\bar{x})(\beta_0+\beta_1x_i+u_i)}{SST_x}\\ &=\frac{\beta_0\sum_{i=1}^n(x_i-\bar{x})+\beta_1\sum_{i=1}^nx_i(x_i-\bar{x})+\sum_{i=1}^n(x_i-\bar{x})u_i}{SST_x}\\ &=\frac{0+\beta_1\sum_{i=1}^n(x_i-\bar{x})^2+\sum_{i=1}^n(x_i-\bar{x})u_i}{SST_x}\\ &=\beta_1+\frac{\sum_{i=1}^n(x_i-\bar{x})u_i}{SST_x}\\ &=\beta_1+\frac{1}{SST_x}\sum_{i=1}^nd_iu_i \end{aligned} \\ 其中, d_i=x_i-\bar{x} 。我们可以看到, \hat{\beta}_1 等于总体斜率 \beta_1 加上误差 \{u_1,u_2,\cdots,u_n\} 的一个线性组合。以 x_i 的值为条件, \hat{\beta}_1 的随机性完全来源于样本中的误差。这些误差一般都不为零的事实,正是 \hat{\beta}_1 与 \beta_1 有差异的原因。 接着,我们以自变量的样本值 x=\{x_1,x_2,\cdots,x_n\} 为条件,有 \begin{aligned} E(\hat{\beta}_1\mid x)&=E[(\beta_1+\frac{\sum_{i=1}^nd_iu_i}{SST_x})\mid x]\\ &=\beta_1+\frac{\sum_{i=1}^nd_iE(u_i\mid x)}{SST_x}\\ &=\beta_1+\frac{\sum_{i=1}^nd_i\cdot 0}{SST_x}\\ &=\beta_1 \end{aligned} \\ 而对 \hat{\beta}_0 的证明就非常简单,根据 \bar{y}=\hat{\beta}_0+\hat{\beta}_1\bar{x} \\ 且 \bar{y}=\beta_0+\beta_1\bar{x}+\bar{u} \\ 因此 \begin{aligned} \hat{\beta}_0&=\bar{y}-\hat{\beta}_1\bar{x}\\ &=(\beta_0+\beta_1\bar{x}+\bar{u})-\hat{\beta}_1\bar{x}\\ &=\beta_0+(\beta_1-\hat{\beta}_1)\bar{x}+\bar{u} \end{aligned} \\ 我们有 \begin{aligned} E(\hat{\beta}_0\mid x)&=E[(\beta_0+(\beta_1-\hat{\beta}_1)\bar{x}+\bar{u})\mid x]\\ &=\beta_0+\bar{x}[E(\beta_1\mid x)-E(\hat{\beta}_1\mid x)]+E(\bar{u}\mid x)\\ &=\beta_0+\bar{x}(\beta_1-\beta_1)+0\\ &=\beta_0 \end{aligned} \\ 由此我们得到OLS的第一个重要统计性质。 定理1.1 OLS的无偏性 利用假定SLR.1~SLR.4,对 \beta_0 和 \beta_1 的任何值,我们都有 E(\hat{\beta}_0)=\beta_0\text{和}E(\hat{\beta}_1)=\beta_1 \\ 即, \hat{\beta}_0 对 \beta_0 而言是无偏的,\hat{\beta}_1 对 \beta_1 而言是无偏的。(以自变量的样本值为条件。) 注意,无偏性是 \hat{\beta}_0 和 \hat{\beta}_1 的抽样分布性质,并没有告诉我们从特定样本中得到的估计值是什么。 (2)OLS估计量的方差 除了知道 \hat{\beta}_1 的抽样分布是以 \beta_1 为中心( \hat{\beta}_1 是无偏的)的之外,知道我们预期的 \hat{\beta}_1 究竟距离 \beta_1 有多远也很重要。在其他条件不变的情况下,这就容许我们从所有无偏估计量中选择一个最佳估计量。度量 \hat{\beta}_1 和 \hat{\beta}_1 分布的分散程度,最容易操作的一个指标就是方差或者其平方根即标准差。 我们再引入第五个假定。这个假定要求,以 x 为条件,无法观测变量 u 的方差是一个常数。这就是同方差(homoskedasticity)或常方差假定。 假定SLR.5(同方差且不相关):给定解释变量的任何值,误差都具有相同的方差,且序列不相关。即 \begin{aligned} var(u\mid x)&=\sigma^2\\ cov(u_tu_s\mid x)&=E(u_tu_s\mid x)=0 \end{aligned} \\ 注意,我们在没有SLR.5的时候,就已经证明了OLS的无偏性。假定SLR.5对于证明 \hat{\beta}_0 和 \hat{\beta}_1 的无偏性毫无作用。 当 var(u\mid x) 取决于 x 时,便称误差项表现出异方差性(heteroskedasticity)(或者非恒定方差)。 因为 var(u\mid x)=E(u^2\mid x)-[E(u\mid x)]^2 和 E(u\mid x)=0 ,因此 E(u^2\mid x)=var(u\mid x)=\sigma^2 ,这意味着 E[E(u^2\mid x)]=E(u^2)=\sigma^2 ,即 \sigma^2 也是 u^2 的无条件期望值。 又根据 var(u)=E(u^2)-[E(u)]^2=E(u^2) 可知, var(u)=\sigma^2 ,即 \sigma^2 是 u 的无条件方差,所以 \sigma^2 经常被称为误差方差(error variance)或干扰方差。 \sigma 越大表示影响 y 的无法观测因素的分布越分散。 根据SLR.4和SLR.5,我们有 \begin{aligned} E(y\mid x)&=E[(\beta_0+\beta_1x+u)\mid x]=\beta_0+\beta_1x\\ var(y\mid x)&=var(u\mid x)=\sigma^2 \end{aligned} \\ 有了同方差假定,我们便可以证明如下定理: 定理1.2 OLS估计量的抽样方差 在假定SLR.1~SLR.5下,以样本值 \{x_1,x_2,\cdots,x_n\} 为条件,有 var(\hat{\beta}_1)=\frac{\sigma^2}{\sum_{i=1}^n (x_i-\bar{x})^2}\qquad(1.22) \\ 和 var(\hat{\beta}_0)=\frac{\sigma^2n^{-1}\sum_{i=1}^n x_i^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\qquad(1.23) \\ 下面我们来进行证明。 先来看 var(\hat{\beta}_1) 。(给定样本值 \{x_1,x_2,\cdots,x_n\},意味着 SST_x 和 d_i 都是非随机的。) \begin{aligned} var(\hat{\beta}_1)&=var(\beta_1+\frac{\sum_{i=1}^n d_iu_i}{SST_x})\\ &=var(\frac{\sum_{i=1}^n d_iu_i}{SST_x})\\ &=(\frac{1}{SST_x})^2\sum_{i=1}^nd_i^2var(u_i)\\ &=(\frac{1}{SST_x})^2\sum_{i=1}^nd_i^2\sigma^2\\ &=\frac{\sigma^2\sum_{i=1}^n(x_i-\bar{x})^2}{[\sum_{i=1}^n(x_i-\bar{x})^2]^2}\\ &=\frac{\sigma^2}{\sum_{i=1}^n(x_i-\bar{x})^2} \end{aligned} \\ 得证。 我们再来看 var(\hat{\beta}_0) 。 \begin{aligned} var(\hat{\beta}_0)&=var[\beta_0+(\beta_1-\hat{\beta}_1)\bar{x}+\bar{u}]\\ &=var[(\beta_1-\hat{\beta}_1)\bar{x}]+var(\bar{u})\\ &=\bar{x}^2var(\hat{\beta}_1)+\frac{1}{n^2}var(\sum_{i=1}^n u_i)\\ &=\frac{\sigma^2\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}+\frac{n\sigma^2}{n^2}\\ &=\sigma^2\frac{n\bar{x}^2+\sum_{i=1}^n(x_i-\bar{x})^2}{n\sum_{i=1}^n(x_i-\bar{x})^2}\\ &=\sigma^2\frac{\sum_{i=1}^n x_i^2}{n\sum_{i=1}^n(x_i-\bar{x})^2}\\ &=\frac{\sigma^2n^{-1}\sum_{i=1}^n x_i^2}{\sum_{i=1}^n(x_i-\bar{x})^2} \end{aligned} \\ 证明完毕。 多数时候,我们关注的都是 var(\hat{\beta}_1) ,这个方差取决于误差方差 \sigma^2 和 \{x_1,x_2,\cdots,x_n\} 的总变异 SST_x 。 首先,误差方差 \sigma^2 越大,var(\hat{\beta}_1)就越大,因为影响 y 的不可观测因素的变异越大,要准确估计 \beta_1 就越难。另一方面,自变量的变异越大越好:随着 x_i 的变异增加, \hat{\beta}_1 的方差就会减小。这一点也符合直觉,因为自变量的样本分布越分散,就越容易找出 E(y\mid x) 与 x 之间的关系。并且,当样本容量扩大时, x_i 的总体变异也增加。因此,较大的样本容量也会使得var(\hat{\beta}_1)减小。 下面我们来证明一下:当样本容量扩大时, x_i 的总体变异也增加。 令 m>0 ,我们有 \begin{aligned} \bar{x}_{n+m}&=\frac{x_1+x_2+\cdots+x_n+x_{n+1}+\cdots+x_{n+m}}{n+m}\\ \bar{x}_n&=\frac{x_1+x_2+\cdots+x_n}{n} \end{aligned} \\ 我们令 \bar{x}_m=\frac{x_{n+1}+x_{n+2}+\cdots+x_{n+m}}{m} \\ 因此有 \bar{x}_{n+m}=\frac{n\bar{x}_n+m\bar{x}_m}{n+m} \\ 又算术平均数不能超过平方平均数,即 \frac{x_{n+1}+x_{n+2}+\cdots+x_{n+m}}{m}\le \sqrt{\frac{x_{n+1}^2+x_{n+2}^2+\cdots+x_{n+m}^2}{m}} \\ 因此有 x_{n+1}^2+x_{n+2}^2+\cdots+x_{n+m}^2\ge m\bar{x}_m^2 \\ 则 \begin{aligned} \sum_{i=1}^{n+m}(x_i-\bar{x}_{n+m})^2-\sum_{i=1}^n(x_i-\bar{x}_{n})^2&=[\sum_{i=1}^{n+m}x_i^2-(n+m)\bar{x}_{n+m}^2]-[\sum_{i=1}^nx_i^2-n\bar{x}_n^2]\\ &=x_{n+1}^2+x_{n+2}^2+\cdots+x_{n+m}^2+n\bar{x}_n^2-(n+m)(\frac{n\bar{x}_n+m\bar{x}_m}{n+m})^2\\ &\ge m\bar{x}_m^2+n\bar{x}_n^2-\frac{n^2\bar{x}_n^2+2nm\bar{x}_n\bar{x}_m+m^2\bar{x}_m^2}{n+m}\\ &=\frac{(nm\bar{x}_m^2+m^2\bar{x}_m^2+n^2\bar{x}_n^2+nm\bar{x}_n^2)-(n^2\bar{x}_n^2+2nm\bar{x}_n\bar{x}_m+m^2\bar{x}_m^2)}{n+m}\\ &= \frac{nm(\bar{x}_n^2-2\bar{x}_n\bar{x}_m+\bar{x}_m^2)}{n+m}\\ &=\frac{nm}{n+m}(\bar{x}_n-\bar{x}_m)^2\ge 0 \end{aligned} 证明完毕。 为了构造置信区间和推导检验统计量,我们需要用到 \hat{\beta}_1 和 \hat{\beta}_0 的标准差 sd(\hat{\beta}_1) 和 sd(\hat{\beta}_0) ,其表达式为 \begin{aligned} sd(\hat{\beta}_1)&=\sqrt{\frac{\sigma^2}{\sum_{i=1}^n (x_i-\bar{x})^2}}\\ sd(\hat{\beta}_0)&=\sqrt{\frac{\sigma^2n^{-1}\sum_{i=1}^n x_i^2}{\sum_{i=1}^n(x_i-\bar{x})^2}} \end{aligned} \\ 参考文献: 杰弗里·伍德里奇. 《计量经济学导论》. 清华大学出版社. 2009-07 |
CopyRight 2018-2019 实验室设备网 版权所有 |