内生性问题的产生和解决办法

您所在的位置：网站首页 › 外工作很想家的解决方法 › 内生性问题的产生和解决办法

内生性问题的产生和解决办法

2024-07-10 14:53| 来源: 网络整理| 查看: 265

一、什么是内生性

对于一个回归问题，回归方程如下：

$y = \beta _{0}+\beta _{1}x_{1} + \varepsilon$

简单来说内生性就是自变量x1与扰动项 $\varepsilon$ 存在相关性，即 $cov(x_{1},\varepsilon ) \neq 0$ ，存在内生性那么用OLS就无法得到无偏估计，结论就不可靠。

无偏估计

是指用样本统计量来估计总体的参数时，估计量的数学期望等于被估计参数的真实值。

二、产生内生性原因

1）测量误差

这个很好理解，由于测量误差导致某变量与真实值偏离，那么这个变量的偏离就会影响到扰动项的大小，从而产生相关性。

2）样本选择

举个栗子，评估某个特效药品的治疗效果，选择了服用药物的作为实验组（处理组），未服用药物的作为对照组（控制组），最后对比两组的效应，E（处理组）- E（控制组），但是如果处理组中大多是青壮年，也可能青壮年更偏向参与这种测试，那么就很难说清药物治疗效果，还是青壮年体质好自愈性强。

3）遗漏变量

比如要评价一个人的健康状况，已知变量身高，体重，血压，血糖，饮食习惯，若遗漏了体重，那么体重会体现在扰动项 $\varepsilon$ 上，我们知道血压和血糖跟体重是相关的，也就产生了内生性。

4）互为因果

比如老旧改造安装电梯，需要2/3居民同意，没有反对意见，所以居民意见影响了电梯的安装，但是安装电梯这事会导致1层的房价失去竞争力，从而反对安装，所以就很难达成共识。

公式说明一下：

y：表示是否安装电梯，x：居民意见

则第一个回归方程的假设是： $cov(x,\varepsilon_1 )= 0$

1) $y = \beta _{1}x + \varepsilon _{1}$

第二个回归方程： $cov(y,\varepsilon_2 )= 0$

2) $x = \beta _{2}y +\varepsilon _{2}$

两个方程合并：

3） $y = \beta _1\beta_2y+ \beta_1\varepsilon _2 + \varepsilon_1$

由于 $cov(y,\varepsilon_2 )= 0$ ，但是由于1）方程可知y和 $\varepsilon _1$ 是相关的，所以存在内生性。

三、解决内生性办法

1）测量误差

工具变量法

一般提到工具变量法会想到两个：2SLS（两阶段最小二乘）和GMM（广义矩估计）

2SLS适用于球型扰动项的假设条件下，即同方差，不自相关。

模型： $Y_i = a + \beta_1D_1i + \beta_2X_2i+...+\beta_kX_ki+\varepsilon _i$

其中 $D_1i$ 是内生性变量， $X_2i...X_ki$ 是其他外生变量，这个时候需要找到工具变量Z，需要满足两个条件：

1、工具变量Z和扰动项不相关，即 $Cov(Z,\varepsilon _i)= 0$

2、工具变量Z和内生变量 $D_1i$ 相关

模型估计的两个阶段核心思想：

第一阶段，内生变量对工具变量和所有外生变量回归，得到估计系数，从而得到内生变量预测值。

第二阶段，用预测值代替内生变量进行回归。

stata命令：ivregress 2sls

GMM适用于扰动项存在异方差或自相关。

什么是异方差：

是指回归方程的扰动项的方差不完全相等。

举个栗子：学历对收入的影响，一般情况下学历越高收入越高，但是也存在小学学历的是个大老板，但是大多数情况下小学学历收入普遍不高，所以在小学的样本集中方差是相同的，而本科学历普遍要高于小学学历的收入，也存在收入居高和极低的特例，同样在本科情况下方差也是相同的。但是综合一起看两者（小学学历，本科学历）的方差是不同的，就存在了异方差。

什么是自相关：

一般指动态面板数据，例如一个上市公司，他的去年业绩也会影响今年的业绩。

矩估计思想同OLS（最小二乘法）和LIML（最大似然法）不同，

OLS目标函数是求真实数据和预测数据平方和最小

LIML目标函数是假设样本概率分布和真实相同，利用样本的联合概率密度最大值估计参数的过程。

矩估计是假设样本和总体拥有相同的矩，一阶原点矩和二阶原点矩，然后推到参数的过程。

stata命令：ivregress gmm 或 xtabond2

固定效应

固定效应适用于面板数据，能够解决部分变量问题，因为它消除的是不随时间变化的不可观察变量。

固定效应模型：

$Y_it = X_it\beta +Z_it\gamma +\alpha _i + u_i$