反向因果：来源、特征及解决方法

您所在的位置：网站首页 › 反向因果关系的内生性 › 反向因果：来源、特征及解决方法

反向因果：来源、特征及解决方法

#反向因果：来源、特征及解决方法| 来源: 网络整理| 查看: 265

New！ lianxh 命令发布了：随时搜索连享会推文、Stata 资源，安装命令如下： . ssc install lianxh使用详情参见帮助文件 (有惊喜)： . help lianxh

✌ 课程详情： https://gitee.com/arlionn/Course | lianxh.cn

✨ 课程主页： https://gitee.com/arlionn/Course

作者：茅陈斌 (中山大学)邮箱： [email protected]

1. 背景介绍

2. 偏误来源

2.1 POLS 方法

2.2 FE 和 RE 方法

2.3 FD 方法

3. 解决方法

3.1 解释变量滞后项的引入及 LFD 模型

3.2 被解释变量滞后项的引入和 AB 模型

3.3 交叉滞后的固定效应和 ML-SEM 方法

3.4 影响渠道或机制分析

3.5 线性反馈检验

3.6 结构方程组法

4. 参考文献

5. 相关推文

相关课程

课程一览

1. 背景介绍

实证研究大都致力于回答因果推断问题，例如：

低薪酬会导致职业女性化吗？有限的经济资源是否增加了离婚的风险？好的制度能够带来更高的经济增长吗？

一直以来，「随机实验」被认为是回答上述因果推断问题的 “黄金法则”。但是，由于社会生活的不可操纵性，随机实验又很难应用于社科类研究中。因此，学者们不得不利用观测数据来进行因果推断。

在因果推断中，「反向因果问题」又是一个不可忽视的问题。重新回顾上述因果问题，人们不禁会问：

职业女性化会降低薪酬吗？夫妻是否会因离婚风险而调整他们的工作行为？经济更发达的地区拥有更好的制度吗？

可以看出，上述问题的因果关系可能是双向的，这也是我们在进行因果推断过程中面临的关键挑战。

当然，说起来容易，如何解决「反向因果问题」也绝非易事。为此，本文将系统介绍「反向因果问题」偏误的来源，并在此基础上，结合现有文献案例为读者提供一些可行的解决方法。

2. 偏误来源

通常，未考虑反向因果问题，会导致估计结果产生偏误。接下来，以面板数据为例，分别用 POLS、FE、RE、以及 FD 等方法估计 X 对 Y 的影响，来分析偏误的来源。

2.1 POLS 方法

回归方程为：

yit=β1xitϵit

其中，yit 为被解释变量，xit 为解释变量，ϵit 为满足独立同分布的误差项。为了使估计得到的参数具备无偏性，回归方程中的误差项需要满足同期外生性，即：

E(ϵit|xit)=0

在 POLS 方法下，允许反向因果关系存在时，只有当所有同时对 X 和 Y 都产生影响的变量被捕捉到时，参数估计才是有效的。但这样严格的条件在实证研究中往往难以满足，估计偏误也由此产生。

2.2 FE 和 RE 方法

进一步，将代表个体特征的 αi 从误差项中分离。根据对 αi 的处理方式不同，又可以分为 FE (固定效应) 模型和 RE (随机效应) 模型。

在 FE 模型下，回归方程为：

yit=αiβ1xitϵit

其中，FE 模型允许代表个体特征的 αi 与解释变量相关。

在 RE 模型下，回归方程为：

yit=αiβ1xitϵit

其中，RE 模型认为代表个体特征的 αi 与解释变量不相关，即：

E(αi|xit)=0

尽管上述模型在处理 αi 的方式上有所不同，但都需要满足严格外生性的假设：

E(ϵis|xit,αi)=0for all s,t=1,⋯,T

当反向因果关系存在时，严格外生性的假设往往不能满足，故 FE 模型和 RE 模型的估计结果也会产生偏误。

2.3 FD 方法

在 FD 模型的基础上，可以将原回归方程减去个体水平上的均值，消去 αi，再对参数进行估计。

yit=αiβ1xitϵityit−1=αiβ1xit−1ϵit−1

相减，得到下式：

Δyit=β1ΔxitΔϵit

与 FE 模型和 RE 模型相比，FD 模型放松了 αi 的外生性假设，但仍需要满足严格外生性假设。因此，与 FE 模型和 RE 模型类似，反向因果关系的存在仍会使 FD 模型的估计结果出现偏误。

3. 解决方法

接下来，本文将介绍几种反向因果问题的解决方法，辅以论文实例进行说明。

3.1 解释变量滞后项的引入及 LFD 模型

将解释变量的滞后项代替解释变量进入回归，可能有助于解决反向因果问题。假设回归方程如下：

yit=βxit−1αiϵit

尽管解释变量滞后项的引入有助于摆脱严格外生性假设，但它引入了同样强而不可测的假设，即未观测变量序列不相关。由此可见，在 FE 模型和 RE 模型中，简单地引入解释变量的滞后项并不能很好地解决反向因果问题。

进一步，我们可以在引入解释变量滞后项的基础上使用一阶差分的方法得到 LFD 模型。假设两个时点上的回归方程分别为：

yit=αiβ1xit−1ϵityit−1=αiβ1xit−2ϵit−1

将两个式子相减，可得：

yit−yit−1=β(xit−1−xit−2)(ϵit−ϵit−1)

LFD 模型允许 X 影响 Y 时因果反馈过程的存在，即允许 xit 和 ϵit 之间存在相关性。然而，LFD 模型对因果关系描述的准确性要求很高。LFD 模型建立在一个关键的假设上，即 Y 在两个时点间的变化量是 X 在先前两个时点间变化量的函数。因此，若现实中的因果间的滞后关系并非如模型所示，则 LFD 模型的估计结果就会产生偏误。

3.2 被解释变量滞后项的引入和 AB 模型

在回归模型的右边引入被解释变量的滞后项的方法被称为 LDV 模型。假设回归方程为：

yit=β1yit−1β2xitαiϵit

此时，被解释变量滞后项的引入导致误差项 ϵis 与被解释变量的滞后项之间存在相关性，违背了严格外生性的假设，因而造成偏误。

在 LDV 模型的基础上，做一阶差分即可得到 AB 模型。差分后的回归方程为：

Δyit=β1Δyit−1β2ΔxitΔϵit

接着，我们可以利用 yit−2 等更高阶滞后项或 Δyit−2 等更高阶滞后项的差分项来为 Δyit−1 的工具变量。解释变量的处理方法与被解释变量类似。在此基础上，我们可以利用标准 GMM 或系统 GMM 等方法进行估计。

但是，AB 模型也存在一些弊端：

当面对数量较多的矩条件时，AB 模型的估计结果会存在向下偏误和弱工具变量问题；AB 模型在有限样本下表现较差，需要较多的样本个数。3.3 交叉滞后的固定效应和 ML-SEM 方法

在上述分析中，我们分别将解释变量和被解释变量滞后项引入模型，来缓解反向因果问题。自然地，也可以同时将解释变量和被解释变量的滞后项引入回归模型，即交叉滞后的固定效应模型。假设回归方程如下：

yit=β1yit−1β2xit−1αiϵit

针对上式，有学者利用 ML-SEM 方法 (最大似然估计结构方程模型) 进行估计。与 LFD 模型和 AB 模型类似，ML-SEM 方法通过假设解释变量的序列外生性来允许反向因果关系的存在，即允许误差项 ϵit 与解释变量的未来值相关。值得注意的是，ML-SEM 方法的使用需要建立在误差项序列无关的假设之上。此外，ML-SEM 方法同样面临与 LFD 模型类似的 “滞后关系识别问题”。

Maghyereh 和 Abdoh (2020) 在讨论油价变动的不确定性和企业投资间的关系时考虑了反向因果问题。作者利用交叉滞后的固定效应模型进行估计。回归方程如下所示：

INVit=β0β1INVit−1β2OVolt−1∑k=1KθkXit−1k∑m=1MθmXt−1m∑r=1RγrDrtτiδtϵit

其中，INVit 表示企业投资水平，OVolt 表示原油价格的不确定性 (波动性)，Xitk 表示企业层面的控制变量，Xtm 表示金融市场不确定性的变量，Drt 表示原油价格不确定性冲击的虚拟变量，τi 表示不随时间变化的企业层面个体效应，δt 表示时间趋势，ϵit 为独立同分布的误差项。

在此基础上，作者还将所有的解释变量滞后一期来控制可能的内生性问题和反向因果问题。之后，作者利用系统 GMM 方法进行估计，并利用两阶段最小二乘 (two-stage least squares) 进行稳健性检验。

3.4 影响渠道或机制分析

以上三种应对反向因果问题的方法多是在回归方程上做文章，即通过滞后项的引入来放松原有的严格外生性假设。此外，也有学者通过影响渠道或机制分析来应对可能存在的反向因果问题。

Pagano 和 Schivardi (2003) 分析了企业规模和增长率之间的因果关系。作者利用影响渠道的分析来应对其中可能存在的反向因果问题。基本回归方程为：

gij=α0α1′Xijα2ln(Sij)λiϵij

其中，g 表示国家 j 部门 i 的人均增加值的增长率，X 为控制变量，S 为国家 j 部门 i 的平均企业规模加上1的对数，λi 表示部门的虚拟变量，ϵ 表示误差项。

接着，作者借鉴 Rajan 和 Zingales (1998) 的方法对反向因果关系进行了检验。为此，作者将企业的研发强度作为中介变量加入回归方程，具体如下所示：

gij=θ0θ1′Xijθ2ln(Sij)θ3[ln(Sij×Di)]λiϵij

其中，D 为研发强度，其捕捉了企业规模对增长率影响的部门差异化效应。若部门差异化效应识别正确且因果关系由企业规模到增长率，则参数 θ3 应为正且显著。若企业规模通过研发强度影响增长率的论点成立，则我们应该能观测到企业规模和增长率总体相关性估计的减少，即 θ2 的估计值相对于 α2 的估计值的减少。若研发强度是企业规模对增长率影响的唯一渠道，则 θ2 应接近于零。

通过检验，作者发现了企业规模通过研发强度对增长率产生影响，表明基础回归中企业规模与增长率的相关关系不是由反向因果关系造成的。

3.5 线性反馈检验

Chong 和 Calderon (2000) 利用线性反馈检验 (linear feedback test) 证明了制度有效性和经济增长之间的双向因果关系。借鉴 Geweke (1982) 的方法，作者利用线性反馈检验将制度有效性和经济增长之间的相关性分解成三个部分，分别是正向影响 (from 制度有效性 to 经济增长 )、反向影响 (from 经济增长 to 制度有效性) 和当期影响 (instantaneous)。线性反馈检验的具体步骤如下所示：

首先，作者考虑了两个回归方程：

yt=∑i=1mγ2ixt−i∑i=1mδ2iyt−iξ1txt=∑i=1mλ2ixt−i∑i=1mϕ2iyt−iξ2t

其中，xt 表示制度有效性的测量值，yt 表示 GDP 的人均增长率。在此基础上，作者还控制了以下变量：初等教育的初始入学率、国内生产总值 (期初水平) 和区域虚拟变量 (拉丁美洲和非洲)。

基于以上回归，作者得到如下的方差协方差矩阵：

Σξ=[Σ11Σ12Σ12′Σ22]

其中，∑ij=E[ξit,ξjt′],i,j,=1,2。

接着，作者另外考虑了两个回归：

yt=∑i=1mδ1iyt−iε1txt=∑i=1mλ1ixt−iε2t

基于以上回归，作者得到 ∑1=E[ε1t,ε1t′] 和 ∑2=E[ε2t,ε2t′]。

最后，作者将当期因果也纳入回归方程内：

yt=∑i=0mγ3ixt−i∑i=1mδ3iyt−iξ1txt=∑i=1mλ3ixt−i∑i=0mϕ3iyt−iξ2t

基于以上回归，作者得到 ∑ξi=E[ξit,ξit′],i=1,2。

在以上计算的基础上，作者利用如下方法测量因果关系：

Fx→y=ln(|∑1|/|∑11|)Fy→x=ln(|∑2|/|∑22|)Fx·y=ln(|∑11|/|∑ξ1|)=ln(|∑22|/|∑ξ2|)Fx,y=|∑1|/|∑ξ1|=|∑2|/|∑ξ2|

其中，Fx,y 表示制度有效性和经济增长之间的线性关系，可以被分解成三个部分：制度有效性对经济增长的影响 Fx→y，经济增长对制度有效性的影响 Fy→x 和当期影响 Fx·y。

3.6 结构方程组法

若反向因果关系存在，则解释变量和被解释变量之间的关系往往可以用方程组来表示。此时，若只估计方程组中的某一个方程，则会因内生性问题而造成估计偏误。因此，有学者利用结构方程组法来应对反向因果问题。

Sridhar 等 (2007) 探究了电信普及率和经济增长之间的关系。为了应对可能存在的反向因果问题，作者建立了一个内化电信普及率和经济增长的结构方程组。具体来看，作者估计了四个回归方程：

总回归方程。在总回归方程中，作者将 GDP 的对数值对年度电信投资的对数值、劳动力总量的对数值和电信基础设施存量的对数值进行回归；需求方程。在需求方程中，作者将电信服务需求的对数值对电信服务价格的对数值 (代表价格) 和人均实际 GDP 的对数值 (代表收入) 进行回归；供给方程。在供给方程中，作者将年度电信投资的对数值对电信服务价格的对数值和市场潜力进行回归；电信普及率增长方程。在增长方程中，作者将电信普及率对年度电信投资进行回归。4. 参考文献Chong A, Calderon C. Causality and feedback between institutional measures and economic growth[J]. Economics & Politics, 2000, 12(1): 69-81. -Link-Maghyereh A, Abdoh H. Asymmetric effects of oil price uncertainty on corporate investment[J]. Energy Economics, 2020, 86: 104622. -Link-Pagano P, Schivardi F. Firm size distribution and growth[J]. Scandinavian Journal of Economics, 2003, 105(2): 255-274. -Link-Rajan R G, Zingales L. Financial dependence and growth[R]. National bureau of economic research, 1996. -Link-Sridhar K S, Sridhar V. Telecommunications infrastructure and economic growth: Evidence from developing countries[J]. Applied Econometrics and International Development, 2007, 7(2). -Link-5. 相关推文

Note：产生如下推文列表的命令为： lianxh 因果滞后 GMM 中介, m安装最新版 lianxh 命令： ssc install lianxh, replace

专题：专题课程助教入选名单公布：因果推断-内生性专题专题：面板数据xtdpdgmm：动态面板数据模型一网打尽Stata面板：Granger-因果检验专题：IV-GMMStata：GMM-简介及实现范例IV：可以用内生变量的滞后项做工具变量吗？专题：内生性-因果推断经典文献回顾：政策评价-因果推断的计量方法因果推断好书：Causal-Inference-Measuring-the-Effect-of-X-on-yStata因果推断新书：The-SAGE-Handbook-of-Regression-Analysis-and-Causal-InferenceStata新命令：konfound - 因果推断的稳健性检验专题：交乘项-调节Stata：调节中介效应检验.mdStata R：一文读懂中介效应相关课程

连享会-直播课上线了！http://lianxh.duanshu.com

免费公开课：

直击面板数据模型 - 连玉君，时长：1小时40分钟，课程主页Stata 33 讲 - 连玉君, 每讲 15 分钟.Stata 小白的取经之路 - 龙志能，时长：2 小时，课程主页部分直播课课程资料下载 (PPT，dofiles等)课程一览

支持回看

专题嘉宾直播/回看视频⭐ 最新专题因果推断, 空间计量，寒暑假班等⭕ 数据清洗系列游万海直播, 88 元，已上线研究设计连玉君我的特斯拉-实证研究设计，-幻灯片-面板模型连玉君动态面板模型，-幻灯片-面板模型连玉君直击面板数据模型 [免费公开课，2小时]

Note: 部分课程的资料，PPT 等可以前往连享会-直播课主页查看，下载。

关于我们Stata连享会由中山大学连玉君老师团队创办，定期分享实证分析经验。直播间有很多视频课程，可以随时观看。连享会-主页和知乎专栏，300 推文，实证分析不再抓狂。公众号关键词搜索/回复功能已经上线。大家可以在公众号左下角点击键盘图标，输入简要关键词，以便快速呈现历史推文，获取工具软件和数据下载。常见关键词：课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法等连享会主页 lianxh.cn

连享会小程序：扫一扫，看推文，看视频……

扫码加入连享会微信群，提问交流更方便

✏ 连享会学习群-常见问题解答汇总：✨ https://gitee.com/arlionn/WD

New！ lianxh 命令发布了：随时搜索连享会推文、Stata 资源，安装命令如下： . ssc install lianxh使用详情参见帮助文件 (有惊喜)： . help lianxh

【本文地址】

公司简介

联系我们