高级计量经济学 4：小样本OLS(上)

您所在的位置：网站首页 › 回归方程没有常数项怎么办 › 高级计量经济学 4：小样本OLS(上)

高级计量经济学 4：小样本OLS(上)

2024-07-13 09:38| 来源: 网络整理| 查看: 265

高级计量经济学 4：小样本OLS(上)

此文内容为《高级计量经济学及STATA应用》的笔记，陈强老师著，高等教育出版社出版。

我只将个人会用到的知识作了笔记，并对教材较难理解的部分做了进一步阐述。为了更易于理解，我还对教材上的一些部分（包括代码和正文）做了修改。

仅供学习参考，请勿转载，侵删！

本文目录：

3 小样本OLS

3.1 多元线性回归模型 3.1.1 线性假定 3.1.2 严格外生性 3.1.3 不存在“多重共线性” 3.1.4 球形扰动项 3.1.5 本章公式 3.2 OLS的代数推导 3.2.1 $\pmb \beta$ 的OLS模型 3.2.2 $\pmb \beta$ 的OLS一阶条件 3.2.3 $\pmb \beta$ 的OLS二阶条件 3.2.3 $\pmb \sigma^2$ 的估计 3.2.4 本章公式

$\S \text{ 第 3 章 } \S$

$\text{小样本OLS}$

3 小样本OLS 3.1 古典线性回归模型的假定

最小二乘法（Ordinary Least Square，OLS）是单一方程线性回归模型最常见、最基本的估计方法。古典线性回归模型（Classical Linear Regression Model，CLRM）的假定如下。

3.1.1 线性假定

总体的模型为： $y_{i}=\beta_{1} x_{i 1}+\beta_{2} x_{i 2}+\cdots+\beta_{K} x_{i K}+\varepsilon_{i} \quad(i=1, \cdots, n) \tag{3.1}$ 其中， $n$ 为样本容量， $K$ 为解释变量的数量。对于 $x_{ik}$ ，下标 $i$ 代表第 $i$ 个观测值（observation），下标 $k$ 表示第 $k$ 个解释变量。如果回归有常数项，那么通常令 $x_{i1}\equiv1$ 。 $\beta_k$ 是待估计参数，称为回归系数（regression coefficients）。 $\varepsilon_i$ 则是扰动项。

线性假设的含义是，每个解释变量 $x_{ik}$ 对被解释变量 $y_i$ 的边际效应均为常数，因为 $\frac{\partial y_i}{\partial x_{ik}} = \beta_k$ ，如果认为边际效应是可变的，可以加入二次项 $x_{ik}^2$ 、三次项 $x_{ik}^3$ 、交叉项 $x_{ik}x_{im}$ 等。比如加入交叉项 $\gamma x_{ik}x_{im}$ ，那么 $\frac{\partial y_i}{\partial x_{ik}} = \beta_k+\gamma x_{im}$ ，可以发现这时 $x_{ik}$ 对 $y_i$ 的边际效应是可以变化的。

总体的模型也被称为数据生成过程（Data Generating Process，DGP）。为了更表达简洁，以后常常采用矩阵和向量的形式表示。令第 $i$ 个观测数据为 ${\pmb x_i}=(x_{i1}x_{i2}\cdots x_{iK})^\prime$ ，回归系数向量为 $\pmb \beta = (\beta_1\beta_2\cdots \beta_K)^\prime$ ，那么上述 $(3.1)$ 可以写成： $y_i = {\pmb {{x_i}^\prime \beta}}+\varepsilon_i,\quad (i=1,\cdots,n) \tag{3.2}$ 把所有观测 $(i=1,\cdots,n)$ 所对应的方程叠（stack）在一起，有： $\left(\begin{array}{c} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{array}\right)=\left(\begin{array}{c} \pmb x_{1}^{\prime} \\ \pmb x_{2}^{\prime} \\ \vdots \\ \pmb x_{n}^{\prime} \end{array}\right) \boldsymbol{\pmb \beta}+\left(\begin{array}{c} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{array}\right) \tag{3.3}$ 为了更简洁地书写，定义：

${\bf y} \equiv (y_1y_2\cdots y_n)^\prime$ ${\bf x}\equiv(\pmb{x_1x_2\cdots x_n})^\prime$ 为数据矩阵 ${\pmb \varepsilon} \equiv (\varepsilon_1\varepsilon_2\cdots \varepsilon_n)^\prime$

那么方程 $(3.3)$ 可以写成： ${\bf y}={\bf X}{\pmb \beta}+{\pmb \varepsilon}\tag{3.4}$

3.1.2 严格外生性

CLRM要求扰动项满足严格外生性（strict exogeneity），即： ${\rm E}({\varepsilon_i}|{\bf X})={\rm E}({\varepsilon_i}|\pmb{x_1,x_2,\cdots,x_n})=0,\quad (i=1,\cdots,n) \tag{3.5}$ 即给定数据矩阵 $\bf X$ 的条件下，扰动项 $\pmb \varepsilon_i$ 的条件期望为0。这意味着 $\pmb \varepsilon_i$ 必须均值独立于（mean-independent）所有解释变量的观测数据。根据前面提到的均值独立比不线性相关，那就在要求 $\text{Cov}(\varepsilon_i, x_{ik})=0,\forall i,k$ 这是一个很强的假设，不过在大样本下则不需要这么强。

其实，均值独立并不要求 ${\rm E}({\varepsilon_i}|{\bf X})=0$ ，只需要让 ${\rm E}({\varepsilon_i}|{\bf X})=常数$ 就可以了。不过，如果存在截距项，那就总可以把扰动项的非零期望归入常数中，从而满足新的严格外生性。

性质1：扰动项的无条件期望为零

证明1：根据迭代期望定律 ${\rm E}(\varepsilon_i) = {\rm E}_{\bf X}(\varepsilon_i|{\bf X})={\rm E}_{\bf X}(0)=0$ 证毕。

定义：如果随机变量 $X,Y$ 满足 $E(XY)=0$ ，那么就说 $X,Y$ 正交（orthogonal）

注意，计量上的正交的定义与概率论的定义略有不同

性质2：解释变量与扰动项正交

证明2：严格外生性要求均值独立 $\Rightarrow$ 线性不相关，由有： $\text{Cov}(x_{ik},\varepsilon_i) = 0$ 而且： $\text{Cov}(x_{ik},\varepsilon_i) = {\rm E}(x_{ik}\varepsilon_i)-{\rm E}(x_{ik})\underbrace{{\rm E}(\varepsilon_i)}_{=0}={\rm E}(x_{ik}\varepsilon_i)$ 所以有： ${\rm E}(x_{ik}\varepsilon_i)=0$ 证毕。

3.1.3 不存在“多重共线性”

不存在多重共线性（strict multicollinearity），即数据矩阵 $\bf X$ 满秩，即 $\text{rank}({\bf X})=K$ 。如果不满足这个条件，我们称 $\pmb \beta$ 不可识别。实际中不容易出现严格多重共线性，就算有，Stata也会自动识别。

可以这么理解：如果不满足多重共线性，那么矩阵 $\bf X$ 就存在一些多余的解释变量。另外，在后面推算OLS估计量的时候会需要用到 $\bf X^{-1}$ ——如果 $\bf X$ 不满秩，那么 $\bf X^{-1}$ 不存在。

3.1.4 球形扰动项

球形扰动项（spherical disturbance）即扰动项满足同方差、无自相关的性质，即： ${\rm Var}({\pmb \varepsilon}|{\bf X}) = {\rm E}(\pmb {\varepsilon \varepsilon^\prime}|{\bf X}) = \pmb \sigma^2 \pmb I_n = \left( \begin{matrix} \sigma^2 & \cdots & 0\\ \vdots & \ddots & \vdots \\ 0 & \cdots & \sigma^2 \end{matrix} \right)$ 之所以称为“球形扰动项”，是因为扰动项的协方差矩阵与单位矩阵 $\pmb I_n$ 成正比。

球形扰动下，协方差矩阵 ${\rm Var}({\pmb \varepsilon}|{\bf X})$ 的主对角线都等于 $\sigma^2$ ，即满足条件同方差（conditional homoskedasticity），否则存在条件异方差（conditional heteroskedasticity）。球形扰动下， ${\rm Var}({\pmb \varepsilon}|{\bf X})$ 的非主对角线都等于0，说明不同个体的扰动项之间没有自相关 3.1.5 本节总结

主要有以下几个公式和推论

线性假设

${\bf y} = {\bf X} \pmb \beta + \pmb \varepsilon$

严格外生性

${\rm E}(\varepsilon_i|{\bf X})=0$

推论1:无条件期望为零，用期望迭代定律证明

${\rm E}(\varepsilon_i)=0$

推论2：解释变量和扰动项正交，用协方差公式展开证明

${\rm E}(\varepsilon_i x_{ik})=0$

不存在多重共线性

$\text{rank}({\bf X}) = K$

球形扰动项

$\text{Var}(\pmb \varepsilon) = \pmb\sigma^2 \pmb I_n$

3.2 OLS的代数推导

根据3.1.1，我们知道总体的模型是： ${\bf y}={\bf X}{\pmb \beta}+{\pmb \varepsilon}$

根据假设3.1.4，我们有： $\text{Var}(\pmb \varepsilon) = \pmb\sigma^2 \pmb I_n$

从而需要估计的参数有： $\pmb \beta$ 和 $\pmb \sigma^2$

3.2.1 $\pmb \beta$ 的OLS模型

为了估计位置参数向量 $\pmb \beta$ ，对于 $\pmb \beta$ 的任意一个假想值（hypothetical value） $\pmb {\tilde \beta}$ ，记第 $i$ 个数据的拟合误差（即残差，residual）为 $e_i = y_i - \pmb{x_i^\prime} \pmb {\tilde \beta}$ 。写成向量的形式，记 ${\pmb e} = (e_1e_2\cdots e_n)^\prime$ ，则有： $\pmb e = \pmb y - {\bf X}\pmb{\tilde \beta}$ 最二乘法的思想就在于找到使得残差平方和（Sum of Squared Residuals，SSR） $\sum_{i=1}^n e_i^2$ 最小的 $\pmb{\tilde \beta}$ 。其数学规划问题出为： $\min_{\pmb{\tilde \beta}} \text{SSR} (\pmb{\tilde \beta}) =\sum_{i=1}^n e_i^2$ 看到任何平方和的第一反应都应该是写成向量内积的形式，即 $\sum_{i=1}^n e_i^2 = \pmb e^\prime \pmb e$ 代入 $\pmb e = \pmb y - {\bf X}\pmb{\tilde \beta}$ ，则数学规划问题为： $\begin{align} \min_{\pmb{\tilde \beta}} \text{SSR} (\pmb{\tilde \beta}) &=(\pmb y - {\bf X}\pmb{\tilde \beta})^\prime (\pmb y - {\bf X}\pmb{\tilde \beta}) \nonumber \\ &=(\pmb y^\prime - \pmb{\tilde \beta}^\prime{\bf X}^\prime)(\pmb y - {\bf X}\pmb{\tilde \beta}) \nonumber \\ &= \pmb y^\prime \pmb y - \pmb y^\prime {\bf X}\pmb{\tilde \beta} - \pmb{\tilde \beta}^\prime{\bf X}^\prime \pmb y + \pmb{\tilde \beta}^\prime{\bf X}^\prime {\bf X}\pmb{\tilde \beta} \nonumber \end{align}$ 注意到 $\pmb y^\prime {\bf X}\pmb{\tilde \beta} = (\pmb{\tilde \beta}^\prime{\bf X}^\prime \pmb y)^\prime$ ，而且这俩均是标量，所以可以合并为 $2\pmb y^\prime {\bf X}\pmb{\tilde \beta}$ ，从而数学规划问题进一步可以化为： $\begin{align} \min_{\pmb{\tilde \beta}} \text{SSR} (\pmb{\tilde \beta}) &= \pmb y^\prime \pmb y - 2\pmb y^\prime {\bf X}\pmb{\tilde \beta} + \pmb{\tilde \beta}^\prime{\bf X}^\prime {\bf X}\pmb{\tilde \beta} \nonumber \end{align}$ 我们发现，目标函数 $\text{SSR} (\pmb{\tilde \beta})$ 实际上是关于 $\pmb{\tilde \beta}$ 的二次型（类比二次函数）。为了对 $\pmb{\tilde \beta}$ 求导（一阶条件），我们要引入对向量的微分规则：

假设列向量 $\pmb a=(a_1a_2\cdots a_K)^\prime$ ，则 $\pmb a^\prime \pmb{\tilde \beta} =\sum_{i=1}^K a_i\tilde\beta_i$ 。对向量 $\pmb{\tilde \beta}$ 求导其实就是对 $\pmb{\tilde \beta}$ 的每个分量求偏导数，然后再把这些偏导数排列成列向量的形式，所以： $\frac{\partial\left(\boldsymbol{a}^{\prime} \tilde{\boldsymbol{\beta}}\right)}{\partial \tilde{\boldsymbol{\beta}}}=\left(\frac{\partial\left(\boldsymbol{a}^{\prime} \tilde{\boldsymbol{\beta}}\right)}{\partial \tilde{\boldsymbol{\beta}}_{1}} \frac{\partial\left(\boldsymbol{a}^{\prime} \tilde{\boldsymbol{\beta}}\right)}{\partial \tilde{\boldsymbol{\beta}}_{2}} \ldots \frac{\partial\left(\boldsymbol{a}^{\prime} \tilde{\boldsymbol{\beta}}\right)}{\partial \tilde{\boldsymbol{\beta}}_{k}}\right)^{\prime}=\left(a, a_{2} \cdots a_{\kappa}\right)^{\prime}=\boldsymbol{a}$

同样地，假设 $\pmb A$ 为 $K$ 阶对称矩阵，则对二次型 $\left(\tilde{{\pmb \beta}}^{\prime} \boldsymbol{A} \tilde{\boldsymbol{\beta}}\right)$ 可以证明： $\frac{\partial\left(\tilde{{\pmb \beta}}^{\prime} \boldsymbol{A} \tilde{\boldsymbol{\beta}}\right)}{\partial \tilde{\boldsymbol{\beta}}}=\left(\frac{\partial\left(\tilde{\boldsymbol{\beta}}^{\prime} \boldsymbol{A} \tilde{\boldsymbol{\beta}}\right)}{\partial \tilde{\beta}_{1}} \frac{\partial\left(\tilde{\boldsymbol{\beta}}^{\prime} \boldsymbol{A} \tilde{\boldsymbol{\beta}}\right)}{\partial \tilde{\beta}_{2}} \ldots \frac{\partial\left(\tilde{\boldsymbol{\beta}}^{\prime} \boldsymbol{A} \tilde{\boldsymbol{\beta}}\right)}{\partial \tilde{\beta}_{k}}\right)^{\prime}=2 \pmb A \tilde{\boldsymbol{\beta}}$ 可见，对二次型的导数依旧保留了二次函数的一些相似的结构。

证明：二次型的求导法则

其实不难证明，展开就可以了。同样地假设 $\pmb A$ 为 $K$ 阶对称矩、 $\pmb{\beta}$ 是 $K$ 维向量，那么根据二次型的定义（二次其次多项式函数），有： $\pmb \beta^\prime \pmb A \pmb \beta = \sum_{i=1}^{K} \sum_{i=1}^{K} a_{ij} \beta_i \beta_j$ 那么对 $\pmb \beta$ 的求导，就是： $\begin{align} \frac{\left(\partial \pmb \beta^\prime \pmb A \pmb \beta \right)}{\pmb \beta} &= \left( \frac{\left(\partial \pmb \beta^\prime \pmb A \pmb \beta \right)}{\beta_1} \frac{\left(\partial \pmb \beta^\prime \pmb A \pmb \beta \right)}{\beta_2} \cdots \frac{\left(\partial \pmb \beta^\prime \pmb A \pmb \beta \right)}{\beta_K} \right)^\prime \nonumber \\ &=\left( \frac{\left(\sum_{i=1}^{K} \sum_{i=1}^{K} a_{ij} \beta_i \beta_j \right)}{\beta_1}\frac{\left(\sum_{i=1}^{K} \sum_{i=1}^{K} a_{ij} \beta_i \beta_j \right)}{\beta_2} \cdots \frac{\left(\sum_{i=1}^{K} \sum_{i=1}^{K} a_{ij} \beta_i \beta_j \right)}{\beta_K} \right)^\prime \nonumber \\ &=\left( \left (2\sum_{i=1}^K a_{1i}X_i \right)\left (2\sum_{i=1}^K a_{2i}X_i \right)\cdots\left (2\sum_{i=1}^K a_{Ki}X_i \right) \right)^\prime\nonumber \\ & = 2\pmb A \pmb X \end{align}$ 证毕。

从而，我们可以求解一阶条件和二阶条件：

3.2.2 $\pmb \beta$ 的OLS一阶条件

对 $\pmb{\tilde \beta}$ 求导就有： $\frac{\partial(\mathrm{SSR})}{\partial \tilde{\boldsymbol{\beta}}}=-2 \boldsymbol{X}^{\prime} \boldsymbol{y}+2 \boldsymbol{X}^{\prime} \boldsymbol{X} \boldsymbol{\tilde { \beta }}=0$ 设最小二乘估计量为 $\pmb b$ ，那么 $\pmb b$ 满足正规方程组： $\left(\bf X^{\prime} X\right)_{K \times K} \pmb b_{K \times 1}=\bf{X}_{K \times n}^{\prime} y_{n \times 1}$ 从而我们可以定义正规方程(组)为： ${\bf X}^{\prime}\underbrace{(\pmb y-{\bf X} \pmb b)}_{=\pmb e}=0$ 即 ${\bf X}^\prime \pmb e = 0$ ，意味着残差向量 $\pmb e$ 和解释变量 $\bf X$ 正交，这是OLS估计的一个重要特征。最后可以求解 $\pmb\beta$ 的OLS估计量 $\pmb b$ 为： $\pmb b = {(\bf X^\prime X)^{-1}X^\prime}\pmb y$

3.2.3 $\pmb \beta$ 的OLS二阶条件

要求海塞矩阵（Hessian）正定，即： $\frac{\partial^2(\text{SSR})}{\partial \tilde{\pmb{\beta}} \partial \tilde{\pmb{\beta}}^\prime} \equiv \frac{\left( \frac{\partial \text{SSR}}{\partial \tilde{\pmb{\beta}}} \right)}{\partial \tilde{\pmb{\beta}}^\prime} \equiv \left(\begin{array}{ccc} \frac{\partial^{2} \mathrm{SSR}}{\partial^{2} \tilde{\beta}_{1}} & \cdots & \frac{\partial^{2} \mathrm{SSR}}{\partial \tilde{\beta}_{1} \partial \tilde{\beta}_{k}} \\ \vdots & & \vdots \\ \frac{\partial^{2} \mathrm{SSR}}{\partial \tilde{\beta}_{k} \partial \tilde{\beta}_{1}} & \cdots & \frac{\partial^{2} \mathrm{SSR}}{\partial^{2} \tilde{\beta}_{k}} \end{array}\right)=2 \bf{X}^{\prime} \bf{X}$

在这里， $\frac{\partial (\pmb \cdot )}{\partial \tilde{\pmb \beta}}$ 表示对 $\tilde{\pmb \beta}$ 的每一个分量求偏导，然后把这些偏导数以行向量的形式排列好。

是一个正定矩阵。

不过，根据CLRM的“没有严格多重共线性”假定，我们假设了 $\bf X$ 满秩，从而 $\bf{X}^{\prime} \bf{X}$ 也是满秩的，所以海赛矩阵必正定

有了一阶条件，我们就有了估计参数 $\pmb \beta$ 的OLS估计量 $\pmb b$ ，于是就自然有了 $\pmb y$ 的拟合值（fitted values）或预测值（predicted values）： $\hat{\pmb y} =(\hat y_1 \hat y_2 \cdots \hat y_n)= {\bf X}\pmb b$ 由于残差向量 $\pmb e$ 与解释变量 $\bf X$ 正交（见一阶条件），因此可以得到拟合值也与残差向量正交。

证明： $\pmb{\hat y}$ 与 $\pmb e$ 正交 ${\rm E}(\pmb{\hat y}^\prime\pmb e) = {\rm E}(({\bf X}\pmb b)^\prime \pmb e) = {\rm E}(\pmb b^\prime {\bf X}^\prime \pmb e) = {\rm E}(\pmb b^\prime [{\bf X}^\prime \pmb e]) = {\rm E}(\pmb b^\prime\cdot 0)={\rm E}(0)=0$ 证毕。

3.2.4 $\pmb \sigma^2$ 的估计

至于扰动项的方差 $\sigma^2 = \text{Var}(\varepsilon_i)$ ，总体扰动 $\pmb \varepsilon$ 无法观测，而样本残差 $\pmb e$ 则可以近似地看出是 $\pmb \varepsilon$ 的实现值，所以使用以下的统计量估计方差 $\sigma^2$ ： $s^2 \equiv \frac{1}{n-K}\sum_{i=1}^n e_i^2 = \frac{\pmb e^\prime \pmb e}{n-K}$ 分母是 $n-K$ 保证了 $s^2$ 是对 $\sigma^2$ 的无偏估计量。 $n-K$ 其实是自由度，因为正规方程组有 $K$ 个方程（因为有 $K$ 个解释变量），所以只有 $n-K$ 个方程是“自由”的。直观地说，如果得到了其中的 $n-K$ 个方程以后，剩下的 $K$ 个方程都可以根据正规方程组推算出来。当然，在大样本中 $n \to \infty$ ，从而 $\frac{n-K}{n} \to 1$ ，这时候分母使用 $n$ 还是 $n-K$ 没有多大差别。