Heckman两阶段模型原理与方法

2024-07-11 01:22| 来源: 网络整理| 查看: 265

原贴地址：https://zhuanlan.zhihu.com/p/244789177 感谢原作者分享，很实用！

Heckman两阶段模型适用于解决由样本选择偏差（sample selection bias）造成的内生性问题。在经济学领域，样本选择偏差的典型例子是研究女性的受教育情况对女性工资的影响。按照这个思路，一般会去问卷收集或在哪个网站下载部分女性的受教育情况，工资，及其他特征数据，例如年龄，毕业院校等级等个人特征，然后做回归。不过这样做有一个问题，就是登记的女性，都是在工作的，但是许多受教育程度较高的女性不工作，选择做家庭主妇，这部分样本就没有算在内，样本失去随机性。这就导致模型只是用到了在工作的女性，这样得出的结论是有偏差的。在管理学领域，一个典型的问题是企业的某个特征，或者董事/CEO的某个特征，对企业R&D投入的影响。也是同样的问题，企业的R&D投入是企业自愿披露的内容，有的企业不披露，这时你做回归时就不能包括这部分样本，也会造成样本选择偏差，结果有偏。

对于这种情况，Heckman提出了一个方法，赫克曼矫正法（Heckman Correction，又称两阶段方法）。赫克曼矫正法分两个步骤进行：第一步骤，研究者根据管理学理论设计出一个计算企业披露R&D投入概率的模型，而该模型的统计估计结果可以用来预测每个个体的概率；第二步骤，研究者将这些被预测个体概率合并为一个额外的解释变量，与其他控制变量等变量一起来矫正自选择问题。这个比率叫逆米尔斯比率，inverse Mills ration， imr，也就是说，在第一步计算出imr，在第二步把imr当作一个控制变量。

以企业R&D投入问题为例，假设全样本是1000家公司，其中800家公司披露了其R&D投入。

第一阶段的模型，是一个包括全样本（1000家）的Probit模型，用来估计一家公司是否会披露其R&D投入的概率。这里的因变量是二元的，表示是否披露R&D投入；自变量是一些会影响是否披露R&D的外生变量，比如其他收入营业收入，杠杆率，公司规模，所属行业等等。然后根据这个Probit模型，为每一个样本计算出imr，imr作用是为每一个样本计算出一个用于修正样本选择偏差的值。

第二阶段，在原来的回归方程，也就是原来只有800家公司的样本的方程假如imr作为控制变量，其他都不变，然后估计出回归参数。这时不管imr显著不显著都不重要，imr显著说明样本选择偏差的确影响了你最初模型的估计，这正表明了使用Heckman两步法纠正样本选择偏差的必要性。imr不显著说明原模型不存在严重的样本选择偏差，这时Heckman第二步得到的结果应该与原模型得到的结果差不多。(关于imr的显著性是否说明样本选择偏差存在目前还有争议，不过imr不是关注的变量)。第二步关注的对象是核心解释变量是否显著。只要核心解释变量显著，就说明结果稳健。

在stata上的实现，还是刚才的例子。假设问题是研究董事会的连锁懂事比例对企业R&D投入的影响，各变量如下：

因变量：企业R&D投入额度（rd）

自变量：董事会连锁懂事比例（interlockratio）

控制变量：公司规模（firmsize），杠杆率（leverage），公司成长性（growth），公司年龄（age），行业R&D投入（industryrd），行业集中度（cr4），行业净资产收益率（industryroa）等。其中前三个控制变量还会影响企业R&D投入的概率。

总样本数1000家，其中800家披露了R&D投入，不考虑其他变量的缺失值。

Heckman两步法第一步，命名一个新的因变量，企业是否披露R&D投入，ifrd xi: probit ifrd firmsize leverage growth i.year i.ind r//Heckman两阶段的第一阶段回归，这里的r可加可不加，看需不需要控制异方差问题。 estimate store First predict y_hat, xb gen pdf = normalden(y_hat) gen cdf = normal(y_hat) gen imr = pdf/cdf//生成imr 第二步回归，把imr当作控制变量加入原模型，用原来的数据。 reg rd interlockratio leverage growth industryrd cr4 industryroa imr i.year i.ind , r if ifrd==1 需要注意的是，在第一步，确定哪些变量会影响企业披露其R&D数据时，这些变量不一定是原模型的因变量，可以是可以不是，是不是要说明理由。

参考文献

Heckman JJ. 1976. The common structure of statistical models of truncation, sample selection and limited dependent variables and a simple estimator for such models. Annals of Economic and Social Measurement 5(4): 475–492.

【本文地址】

公司简介

联系我们