伍德里奇计量经济学第01讲（Ⅲ）

您所在的位置：网站首页 › 张正是什么电影 › 伍德里奇计量经济学第01讲（Ⅲ）

伍德里奇计量经济学第01讲（Ⅲ）

2024-04-19 14:00| 来源: 网络整理| 查看: 265

第01讲简单回归模型1.6 OLS估计量的期望值和方差

我们把 \hat{\beta}_0 和 \hat{\beta}_1 看作是在总体模型中出现的参数 \beta_0 和 \beta_1 的估计量，来研究\hat{\beta}_0 和 \hat{\beta}_1在从总体中抽取不同随机样本时的分布性质。

（1）OLS的无偏性

我们首先在一组简单假定的基础上构建OLS的无偏性。（SLR表示simple linear regression，简单线性回归。）

第一个假定定义了总体模型。

假定SLR.1（线性于参数）：在总体模型中，因变量 y 与自变量 x 和误差（干扰）项 u 的关系如下

y=\beta_0+\beta_1 x+u\qquad(1.20) \\

其中， \beta_0 和 \beta_1 分别表示总体的截距和斜率参数。

第二个假定是我们假设数据是作为随机样本得到的。

假定SLR.2（随机抽样）：我们具有一个服从总体模型方程（1.20）的随机样本 \{(x_i,y_i):i=1,2,\cdots,n\} ，其样本容量为 n 。

我们可以用随机样本的形式将式（1.20）写成

y_i=\beta_0+\beta_1 x_i+u_i,\quad i=1,2,\cdots,n \qquad(1.21) \\

u_i 是第 i 次观测的误差或者干扰，其包含了第 i 次观测中影响 y_i 的不可观测因素。

根据 \hat{\beta}_0,\hat{\beta}_1 的表达式可知，除非解释变量中有一些样本变异，否则OLS斜率和截距的估计值便没有定义。

因此第三个假定时要求解释变量有变异。

假定SLR.3（解释变量的样本有变异）： x 的样本结果即 \{x_i,i=1,2,\cdots,n\} 不是完全相同的数值。

这是一个很弱的假定（当然不值得强调，但却是必需的）。如果总体中的 x 有变异，那么，除非总体变异非常之小或者样本容量太小，否则 x 的随机样本通常也存在变异。

最后，为了得到 \beta_0 和 \beta_1 的无偏估计量，我们需要引入第四个假定：零条件均值假定。

假定SLR.4（零条件均值）：给定解释变量的任何值，误差的期望值都为零。即

E(u\mid x)=0 \\

对一个随机样本，这个假定意味着对所有的 i=1,2,\cdots,n ，都有 E(u_i\mid x_i)=0 。

现在，我们准备证明OLS估计量的无偏性。

斜率 \beta_1 的估计量 \hat{\beta}_1 的表达式为

\hat{\beta}_1=\frac{\sum_{i=1}^n(x_i-\bar{x})y_i}{\sum_{i=1}^n (x_i-\bar{x})^2} \\

因为现在我们对 \hat{\beta}_1 在所有可能的样本中的行为感兴趣，所以\hat{\beta}_1应被看成一个随机变量。

为了简化起见，我们将 x_i 的总变异定义为

SST_x=\sum_{i=1}^n(x_i-\bar{x})^2 \\

则有

\begin{aligned} \hat{\beta}_1&=\frac{\sum_{i=1}^n(x_i-\bar{x})y_i}{\sum_{i=1}^n (x_i-\bar{x})^2}\\ &=\frac{\sum_{i=1}^n(x_i-\bar{x})(\beta_0+\beta_1x_i+u_i)}{SST_x}\\ &=\frac{\beta_0\sum_{i=1}^n(x_i-\bar{x})+\beta_1\sum_{i=1}^nx_i(x_i-\bar{x})+\sum_{i=1}^n(x_i-\bar{x})u_i}{SST_x}\\ &=\frac{0+\beta_1\sum_{i=1}^n(x_i-\bar{x})^2+\sum_{i=1}^n(x_i-\bar{x})u_i}{SST_x}\\ &=\beta_1+\frac{\sum_{i=1}^n(x_i-\bar{x})u_i}{SST_x}\\ &=\beta_1+\frac{1}{SST_x}\sum_{i=1}^nd_iu_i \end{aligned} \\

其中， d_i=x_i-\bar{x} 。我们可以看到， \hat{\beta}_1 等于总体斜率 \beta_1 加上误差 \{u_1,u_2,\cdots,u_n\} 的一个线性组合。以 x_i 的值为条件， \hat{\beta}_1 的随机性完全来源于样本中的误差。这些误差一般都不为零的事实，正是 \hat{\beta}_1 与 \beta_1 有差异的原因。

接着，我们以自变量的样本值 x=\{x_1,x_2,\cdots,x_n\} 为条件，有

\begin{aligned} E(\hat{\beta}_1\mid x)&=E[(\beta_1+\frac{\sum_{i=1}^nd_iu_i}{SST_x})\mid x]\\ &=\beta_1+\frac{\sum_{i=1}^nd_iE(u_i\mid x)}{SST_x}\\ &=\beta_1+\frac{\sum_{i=1}^nd_i\cdot 0}{SST_x}\\ &=\beta_1 \end{aligned} \\

而对 \hat{\beta}_0 的证明就非常简单，根据

\bar{y}=\hat{\beta}_0+\hat{\beta}_1\bar{x} \\

且

\bar{y}=\beta_0+\beta_1\bar{x}+\bar{u} \\

因此

\begin{aligned} \hat{\beta}_0&=\bar{y}-\hat{\beta}_1\bar{x}\\ &=(\beta_0+\beta_1\bar{x}+\bar{u})-\hat{\beta}_1\bar{x}\\ &=\beta_0+(\beta_1-\hat{\beta}_1)\bar{x}+\bar{u} \end{aligned} \\

我们有

\begin{aligned} E(\hat{\beta}_0\mid x)&=E[(\beta_0+(\beta_1-\hat{\beta}_1)\bar{x}+\bar{u})\mid x]\\ &=\beta_0+\bar{x}[E(\beta_1\mid x)-E(\hat{\beta}_1\mid x)]+E(\bar{u}\mid x)\\ &=\beta_0+\bar{x}(\beta_1-\beta_1)+0\\ &=\beta_0 \end{aligned} \\

由此我们得到OLS的第一个重要统计性质。

定理1.1 OLS的无偏性

利用假定SLR.1~SLR.4，对 \beta_0 和 \beta_1 的任何值，我们都有

E(\hat{\beta}_0)=\beta_0\text{和}E(\hat{\beta}_1)=\beta_1 \\

即， \hat{\beta}_0 对 \beta_0 而言是无偏的，\hat{\beta}_1 对 \beta_1 而言是无偏的。（以自变量的样本值为条件。）

注意，无偏性是 \hat{\beta}_0 和 \hat{\beta}_1 的抽样分布性质，并没有告诉我们从特定样本中得到的估计值是什么。

（2）OLS估计量的方差

除了知道 \hat{\beta}_1 的抽样分布是以 \beta_1 为中心（ \hat{\beta}_1 是无偏的）的之外，知道我们预期的 \hat{\beta}_1 究竟距离 \beta_1 有多远也很重要。在其他条件不变的情况下，这就容许我们从所有无偏估计量中选择一个最佳估计量。度量 \hat{\beta}_1 和 \hat{\beta}_1 分布的分散程度，最容易操作的一个指标就是方差或者其平方根即标准差。

我们再引入第五个假定。这个假定要求，以 x 为条件，无法观测变量 u 的方差是一个常数。这就是同方差（homoskedasticity）或常方差假定。

假定SLR.5（同方差且不相关）：给定解释变量的任何值，误差都具有相同的方差，且序列不相关。即

\begin{aligned} var(u\mid x)&=\sigma^2\\ cov(u_tu_s\mid x)&=E(u_tu_s\mid x)=0 \end{aligned} \\

注意，我们在没有SLR.5的时候，就已经证明了OLS的无偏性。假定SLR.5对于证明 \hat{\beta}_0 和 \hat{\beta}_1 的无偏性毫无作用。

当 var(u\mid x) 取决于 x 时，便称误差项表现出异方差性（heteroskedasticity）（或者非恒定方差）。

因为 var(u\mid x)=E(u^2\mid x)-[E(u\mid x)]^2 和 E(u\mid x)=0 ，因此 E(u^2\mid x)=var(u\mid x)=\sigma^2 ，这意味着 E[E(u^2\mid x)]=E(u^2)=\sigma^2 ，即 \sigma^2 也是 u^2 的无条件期望值。

又根据 var(u)=E(u^2)-[E(u)]^2=E(u^2) 可知， var(u)=\sigma^2 ，即 \sigma^2 是 u 的无条件方差，所以 \sigma^2 经常被称为误差方差（error variance）或干扰方差。 \sigma 越大表示影响 y 的无法观测因素的分布越分散。

根据SLR.4和SLR.5，我们有

\begin{aligned} E(y\mid x)&=E[(\beta_0+\beta_1x+u)\mid x]=\beta_0+\beta_1x\\ var(y\mid x)&=var(u\mid x)=\sigma^2 \end{aligned} \\

有了同方差假定，我们便可以证明如下定理：

定理1.2 OLS估计量的抽样方差

在假定SLR.1~SLR.5下，以样本值 \{x_1,x_2,\cdots,x_n\} 为条件，有

var(\hat{\beta}_1)=\frac{\sigma^2}{\sum_{i=1}^n (x_i-\bar{x})^2}\qquad(1.22) \\

和

var(\hat{\beta}_0)=\frac{\sigma^2n^{-1}\sum_{i=1}^n x_i^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\qquad(1.23) \\

下面我们来进行证明。

先来看 var(\hat{\beta}_1) 。（给定样本值 \{x_1,x_2,\cdots,x_n\}，意味着 SST_x 和 d_i 都是非随机的。）

\begin{aligned} var(\hat{\beta}_1)&=var(\beta_1+\frac{\sum_{i=1}^n d_iu_i}{SST_x})\\ &=var(\frac{\sum_{i=1}^n d_iu_i}{SST_x})\\ &=(\frac{1}{SST_x})^2\sum_{i=1}^nd_i^2var(u_i)\\ &=(\frac{1}{SST_x})^2\sum_{i=1}^nd_i^2\sigma^2\\ &=\frac{\sigma^2\sum_{i=1}^n(x_i-\bar{x})^2}{[\sum_{i=1}^n(x_i-\bar{x})^2]^2}\\ &=\frac{\sigma^2}{\sum_{i=1}^n(x_i-\bar{x})^2} \end{aligned} \\

得证。

我们再来看 var(\hat{\beta}_0) 。

\begin{aligned} var(\hat{\beta}_0)&=var[\beta_0+(\beta_1-\hat{\beta}_1)\bar{x}+\bar{u}]\\ &=var[(\beta_1-\hat{\beta}_1)\bar{x}]+var(\bar{u})\\ &=\bar{x}^2var(\hat{\beta}_1)+\frac{1}{n^2}var(\sum_{i=1}^n u_i)\\ &=\frac{\sigma^2\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}+\frac{n\sigma^2}{n^2}\\ &=\sigma^2\frac{n\bar{x}^2+\sum_{i=1}^n(x_i-\bar{x})^2}{n\sum_{i=1}^n(x_i-\bar{x})^2}\\ &=\sigma^2\frac{\sum_{i=1}^n x_i^2}{n\sum_{i=1}^n(x_i-\bar{x})^2}\\ &=\frac{\sigma^2n^{-1}\sum_{i=1}^n x_i^2}{\sum_{i=1}^n(x_i-\bar{x})^2} \end{aligned} \\

证明完毕。

多数时候，我们关注的都是 var(\hat{\beta}_1) ，这个方差取决于误差方差 \sigma^2 和 \{x_1,x_2,\cdots,x_n\} 的总变异 SST_x 。

首先，误差方差 \sigma^2 越大，var(\hat{\beta}_1)就越大，因为影响 y 的不可观测因素的变异越大，要准确估计 \beta_1 就越难。另一方面，自变量的变异越大越好：随着 x_i 的变异增加， \hat{\beta}_1 的方差就会减小。这一点也符合直觉，因为自变量的样本分布越分散，就越容易找出 E(y\mid x) 与 x 之间的关系。并且，当样本容量扩大时， x_i 的总体变异也增加。因此，较大的样本容量也会使得var(\hat{\beta}_1)减小。

下面我们来证明一下：当样本容量扩大时， x_i 的总体变异也增加。

令 m>0 ，我们有

\begin{aligned} \bar{x}_{n+m}&=\frac{x_1+x_2+\cdots+x_n+x_{n+1}+\cdots+x_{n+m}}{n+m}\\ \bar{x}_n&=\frac{x_1+x_2+\cdots+x_n}{n} \end{aligned} \\

我们令

\bar{x}_m=\frac{x_{n+1}+x_{n+2}+\cdots+x_{n+m}}{m} \\

因此有

\bar{x}_{n+m}=\frac{n\bar{x}_n+m\bar{x}_m}{n+m} \\

又算术平均数不能超过平方平均数，即

\frac{x_{n+1}+x_{n+2}+\cdots+x_{n+m}}{m}\le \sqrt{\frac{x_{n+1}^2+x_{n+2}^2+\cdots+x_{n+m}^2}{m}} \\

因此有

x_{n+1}^2+x_{n+2}^2+\cdots+x_{n+m}^2\ge m\bar{x}_m^2 \\

则

\begin{aligned} \sum_{i=1}^{n+m}(x_i-\bar{x}_{n+m})^2-\sum_{i=1}^n(x_i-\bar{x}_{n})^2&=[\sum_{i=1}^{n+m}x_i^2-(n+m)\bar{x}_{n+m}^2]-[\sum_{i=1}^nx_i^2-n\bar{x}_n^2]\\ &=x_{n+1}^2+x_{n+2}^2+\cdots+x_{n+m}^2+n\bar{x}_n^2-(n+m)(\frac{n\bar{x}_n+m\bar{x}_m}{n+m})^2\\ &\ge m\bar{x}_m^2+n\bar{x}_n^2-\frac{n^2\bar{x}_n^2+2nm\bar{x}_n\bar{x}_m+m^2\bar{x}_m^2}{n+m}\\ &=\frac{(nm\bar{x}_m^2+m^2\bar{x}_m^2+n^2\bar{x}_n^2+nm\bar{x}_n^2)-(n^2\bar{x}_n^2+2nm\bar{x}_n\bar{x}_m+m^2\bar{x}_m^2)}{n+m}\\ &= \frac{nm(\bar{x}_n^2-2\bar{x}_n\bar{x}_m+\bar{x}_m^2)}{n+m}\\ &=\frac{nm}{n+m}(\bar{x}_n-\bar{x}_m)^2\ge 0 \end{aligned}

证明完毕。

为了构造置信区间和推导检验统计量，我们需要用到 \hat{\beta}_1 和 \hat{\beta}_0 的标准差 sd(\hat{\beta}_1) 和 sd(\hat{\beta}_0) ，其表达式为

\begin{aligned} sd(\hat{\beta}_1)&=\sqrt{\frac{\sigma^2}{\sum_{i=1}^n (x_i-\bar{x})^2}}\\ sd(\hat{\beta}_0)&=\sqrt{\frac{\sigma^2n^{-1}\sum_{i=1}^n x_i^2}{\sum_{i=1}^n(x_i-\bar{x})^2}} \end{aligned} \\

参考文献：

杰弗里·伍德里奇. 《计量经济学导论》. 清华大学出版社. 2009-07

【本文地址】

公司简介

联系我们