学长教你论文实证(10):稳健性检验 您所在的位置:网站首页 基准特征符号有什么用 学长教你论文实证(10):稳健性检验

学长教你论文实证(10):稳健性检验

2023-03-13 23:31| 来源: 网络整理| 查看: 265

稳健性检验

“目前对于常见的毕业论文面板数据分析模型,在基准的面板回归计基础上,前后的流程还包括描述统计、相关性分析,基准回归,完成内生性、稳健性、异质性检验等,除此之外还有自相关VIF检验、平稳性检验、协整性检验等等,这里内生性、稳健性、异质性已成为“标配”本章内容介绍稳健性检验”

目 录

1. 什么是稳健性检验?2. 为什么要做稳健性检验?3. 变量替换法3.1 替换因变量3.2 替换自变量3.3 放宽因变量或自变量条件4. 补充变量法4.1 加入遗漏变量4.2 加入各类虚拟变量5. 分样本回归法6. 调整样本期6.1 扩展时间窗口6.2 缩短时间窗口6.3 滚动窗口法7. 改变样本容量法7.1 选择子样本7.2 缩尾处理7.3 扩充样本容量8. 内生性问题8.1 工具变量法8.2 加入滞后变量8.3 样本自选择问题9. 其它方法9.1 验证前提条件9.2 模型替换法9.3 更换新的数据源10. 案例11. 联系学长1. 什么是稳健性检验?

在实证分析中,我们通常会对比一系列模型设定,选出“结果最优”的模型得出结论。但是,仅仅根据单一模型设定无法证明得出的结论具有说服力,所以需要改变一些假设和条件:如果发现研究变量的符号和显著性保持一致和稳定,则我们得出的结论是稳健的;反之,结论不是稳健的,需要找出变化的原因进行解释。这一检验流程就是稳健性检验,也称作敏感度分析。

常用的稳健性检验的角度包括变量替换法,改变样本容量法,分样本回归法,补充变量法等

2. 为什么要做稳健性检验?

举一个简单的例子,假如我们现在准备研究政权的更替对于经济发展的影响,我们建立了一个简单的OLS回归模型将经济发展作为被解释变量,政权的更替作为核心解释变量进行估计:

我的分析假设是扰动项均值独立于所有解释变量,即变量外生,不受内部因素的影响,不存在遗漏变量的问题如果存在遗漏变量问题,那么在回归中政权的更替这一变量的估计值就会过高或过低 (取决于遗漏了哪些变量)我认为我们这个分析中存在遗漏变量问题问题,因为政权的更替通常会伴随着暴力事件的增加,而暴力事件的增加则会影响经济的发展,所以暴力事件是我们在随机扰动项中没有控制的变量那么,增加暴力事件这一变量作为控制变量是我可以进行的稳健性检验之一。如果我们发现,增加了这一控制变量之后,使得我的结果与原先的结果完全不同,那么我们之前的结果则是不稳健的,我们应该加入这一变量进行重新估计。

本例中所提及的稳健性检验方法就是我们下文将要介绍的「补充变量法」。

3. 变量替换法

用其他变量替换原变量,进行模型检验。例如我们可以用总销售额(total sales)替换总资产(total assets)衡量,对公司规模进行衡量。

研究变量的测量方法是多种多样的,我们往往习惯于采用自己最熟悉的方法或者是最容易测度的方法进行分析。我们需要保证改变变量的测量方式后,结论依然保持一致。

3.1 替换因变量

周京奎 (2019) 在研究农业生产率和农村家庭的人力资本积累关系时发现随着农业生产率提高,农村家庭倾向于进行教育投资,进而提升了家庭人力资本积累。在本文中作者首先采用家庭教育支出和家庭学杂费支出来衡量教育投资。在随后的稳健性检验章节中,作者将被解释变量替换为家庭教育支出占当年家庭收入的比例,考察农业生产率对教育支出占比的影响,进一步验证了农业生产率对人力资本投资影响的稳健性。

3.2 替换自变量

蔡晓慧 (2016) 在研究地方政府基础设施和企业技术创新关系时,正文部分讨论中使用的地方政府基础设施的数据来自于金戈 (2016) 估算的省级基础设施资本存量数据,而在稳健性检验中采用了地级市市辖区道路密度代表基础设施资本存量。因为道路交通是重要的基础设施,也是企业通过扩大市场规模取得规模经济的前提,道路交通的密度在一定程度上也反应了基础设施的基本存量。

3.3 放宽因变量或自变量条件

除了替换自变量与因变量外,学者有时还会对因变量或自变量的选择条件进行放宽,例如陈仕华 (2015) 在研究国企高管政治晋升对企业并购行为的影响时,对被解释变量的衡量主要是基于董事长或总经理是否调任政府部门职位来判定高管政治晋升,考虑到董事长或总经理升任集团层面的董事长或总经理,或者升任集团层面的党委或党组书记时,国企高管的行政级别也得到了提升,因此在稳健性检验部分将高管职位变更去向出现以下情况时均视为晋升:平级或者更高级别的政府部门职位、集团层面的董事长或总经理、集团层面的党委或党组书记。以此替代变量进行测试。

我们需要注意的是,稳健性检验的意义在于我们需要保证,文章得出的结论不会根据现在使用的数据的变化而发生巨大的变化,比如当其他人使用了一份相似的数据,或者当本文数据的样本量发生不同时,你的结论依然成立,这才能保证结论的可靠性。

4. 补充变量法

该方法主要针对遗漏变量问题。例如讨论环境立法对城市PM2.5水平的影响时,由于PM2.5水平的影响因素众多,因此可能会产生遗漏变量的问题,增删城市GDP这一变量很可能会导致各变量的符号、系数以及显著性发生很大改变。因此我们需要尽可能多的将影响因变量的变量纳入模型之中。

4.1 加入遗漏变量

除了前文所举的例子以外,梁斌 (2020) 在探讨失业保险金对失业者求职努力的影响时,将失业者在日志日搜寻工作的小时数作为因变量,失业者领取到的失业保险金作为自变量,并控制了个体特征变量以及家庭特征变量,加入了省份虚拟变量后,在稳健性检验部分提出,失业保险金对失业者来说是确定性的收入,因此本文预期厌恶风险的失业者 (risk-aversion) 更可能领取失业保险金,也更可能为了日后稳定的收入而积极寻求工作,因此又将风险这一变量纳入了考量。

4.2 加入各类虚拟变量

需要注意的是,加入遗漏变量有时不仅仅指加入更多的变量,也包括控制其他层面的固定效应,比如施炳展 (2020) 在研究互联网对制造业企业分工水平的影响时提到,在前文中作者只控制了年份固定效应和企业固定效应,虽然大多数企业并不会更换省份和行业,但是这种可能性是客观存在的,因此如果不加入省份和行业固定效应,有可能遗漏省份和行业层面不随时间改变的重要变量,从而使估计结果有偏和不一致。为了避免这一问题,作者在保留年份和企业固定效应的基础上,进一步加入了省份和行业固定效应。

5. 分样本回归法

由于不同的样本对于所得的结果具有不同的敏感性,因为在稳健性检验时,也常常进行分样本回归,常见的分类方法用按照人口规模分类,按照地理位置分类,按照城乡分类,按照性别不同分类等等。

比如,刘怡 (2017) 在研究婚姻匹配对代际流动性的影响时提出婚姻匹配是中国代际传递的重要机制,尤其是对女性而言,父代收入通过婚配市场作用于子代配偶的个人收入,形成代际传递,影响子代家庭收入。在稳健性检验中,作者根据子代的城乡分布,将子代样本划分为城镇和乡村样本,比较分析城镇和乡村地区的代际流动性及其婚姻匹配机制在代际传递中的影响,结果发现,城镇地区多依赖于婚姻匹配机制,而农村地区侧重于人力资本投资。

6. 调整样本期

当我们在所得的整个数据集范围内进行分析时,常常会发现改变不同的时间段,得到的结论可能会完全不同。也许某一结论在某一时间段内得到的结果符合我们的预期,而当我们往后退10年,或者往前推10年再次回归,就会发现得到的结论完全不同!因此,选择正确的研究时间段也显得十分重要。在稳健性检验中,我们可以通过扩宽时间长度或者缩短时间长度来检验我们的结论。

6.1 扩展时间窗口

仇童伟 (2019) 在研究宗族代理人对村庄地权变更的影响时在第一个稳健性检验方法中提到,村庄的丧葬习俗表征了社区开放程度,在原文中采用了2012-2014的数据,而在稳健性检验中补充采用1990-2014年村庄丧葬习俗进行了处理。因为与仅采用2012-2014年丧葬习俗相比,采用6个时期的丧葬习俗可以规避单一时期测量造成的误差。类似的文章还包括朱晓文 (2019) 研究家族企业代际传承的文章中。

6.2 缩短时间窗口

缩短时间窗口的一个好处是可以排除其他政策的影响,比如王雄元 (2019) 在研究“一带一路”如何影响企业创新行为的研究中提到,中国于2013 年正式提出“一带一路”倡议,因此在样本仅保留2013 年及以后开通“中欧班列”的样本有助于将本文的研究统一置于“一带一路”倡议的背景下,排除可能的其他政策干扰。(注:另一种排除同时期其他政策的影响的影响是通过控制同时期政策带来的影响,比如齐绍洲 (2018) 在研究排污权交易试点政策是否诱发了企业绿色创新文章时提到,排污费征收政策与排污权交易试点政策并行,我们可以通过需要控制排污费征收政策对企业绿色创新的影响,进一步提炼排污权交易试点政策对企业绿色创新的因果关系。

7. 改变样本容量法

当我们选择好了时间之后,同时也要确定我们的样本是否最能体现我们所研究的问题,同时样本中有没有极端值会影响我们的结果。因此,在稳健性检验中,我们需要将个别离群值剔除,或者在样本中选择最适合我们研究目的样本 来检验我们的结论是否依然稳健。

7.1 选择子样本

鞠雪楠 (2020) 在研究跨境电商平台克服了哪些贸易成本时提出在跨境电商出口贸易中,中国向各个国家(地区)出口的分布并不均衡。其中,美国是中国最大的出口目的地;中国香港和新加坡是全世界重要的转口贸易地区,中国向这个两个地区的出口可能也有转而向其他国家出口。为了确保实证分析的结论不受特定国家(地区) 和转口贸易的影响,本文给出了剔除这三个国家以及地区的样本之后的实证分析结果。

7.2 缩尾处理

在处理离群值时,我们要进行缩尾处理,陈强远 (2019) 在研究中国技术创新主要激励政策对企业技术创新质量和数量的影响时提到,由于控制变量如资产收益率与负债比率的测算存在极端值,尽管上文已对资产收益率与负债比率进行了5%分位上双边缩尾。但为了进一步验证前文结论的稳健性,接下来本文对企业的资产收益率与负债比率进行了1%分位上双边缩尾处理。

7.3 扩充样本容量

除了剔除部分样本进行回归之外,我们依然可以通过增加样本来进行稳健性检验。比如原文中只采用了省会城市进行分析,在稳健性检验部分则可以将样本扩大到所有地级市城市,这一方法有时也被称为降低数据维度。

比如李卫兵 (2019) 在研究空气污染对企业生产率的影响时提到,本文提取的PM2.5排放浓度来源于城市层面,同时由于大样本选择下更易带来显著的回归结果,为了证明回归结果的准确性,我们参考江艇等 (2018) 的处理方法计算出城市层面的TFP,将区域层面的数据降低至城市层面。(注:除了降低数据维度,我们同样可以提高数据维度,比如铁瑛 (2019) 在人口结构变动的影响时多个个体维度进行调整,分别加总至企业维度和城市维度进行稳健性分析)

8. 内生性问题

在处理内生性问题时,我们通常采用以下几种方法进行稳健性检验:

8.1 工具变量法

工具变量是解决内生性问题的一个重要方法,比如施炳展 (2020) 选择了中国建国初期各省份人均函件数量作为省份层面企业互联网普及率的工具变量,选择一个合适的工具变量可以对整个研究都有重要的影响,但同时也是十分困难的,我们可以通过大量的文献阅读积累来选择最合适本文研究的工具变量。

8.2 加入滞后变量

部分研究也会将自变量的滞后一期或者两期变量纳入模型中来解决内生性问题,比如孙传旺 (2019) 在研究交通基础设施与城市空气污染的关系时除了控制核心解释变量的内生性偏误,我们还担心其他控制变量也可能存在潜在的内生性问题。为了检验结果稳健并排除这一种担忧,将其他所有控制变量滞后一期;黄健柏 (2015) 到工业用地价格扭曲对企业过度投资的影响可能存在更长的时滞效应,把回归模型中的工业用地价格扭曲程度变量替换为滞后两期项, 重新进行回归分析;李春涛 (2020) 考虑到创新投入也是影响专利产出的重要因素,本文在控制变量中加入企业创新投入的指标,并采用研发支出总额占销售收入之比来度量。由于创新投入对创新产出的影响具有时滞性,本文使用滞后一期的创新投入指标。

8.3 样本自选择问题

陈强远 (2019) 在研究中国技术创新主要激励政策对企业技术创新质量和数量的影响中提到,高新技术企业认定等技术创新激励政策可能存在自选择问题,即企业整体绩效较好的企业更容易享受优惠政策, 这可能导致估计结果存在偏误。为了解决这一问题,文章采用Heckman两步法进行了稳健性检验。类似的文章包括蔡晓慧 (2016) ;周颖刚 (2019) 等。

注:因为内生性问题十分重要,也有一些文章不将其作为稳健性检验的一部分,而是作为正文当中的一部分

9. 其它方法9.1 验证前提条件

正如前文提到,稳健性检验就是为了检验回归方法中的前提条件是否满足,比如吕越 (2019) 在采用双重差分法研究“一带一路”倡议的投资对对外投资的影响时检验了DID的方法成立的条件,包括安慰剂检验,平行趋势检验等等,类似的文章周茂 (2019) ;朱晓文 (2019) ;梁斌 (2020) ;陈冬华 (2018)

9.2 模型替换法

在上文中提到的蔡晓慧 (2016) 这篇文章中,作者依次在正文中采用线性概率模型进行研究后,在稳健性检验部分又依次采用Logit模型、Probit模型进行估计基础设施对企业是否投入研发的影响;同样施炳展 (2020) 考虑到线性回归模型潜在的模型设定偏误,以面板Tobit 模型替换线性回归模型后重新进行了回归;李春涛 (2020) 认为本文使用的专利数量有大量的零值,存在截尾数据的特征,因此使用Tobit 模型进一步检验金融科技发展对企业创新的影响;祝树金 (2020) 用断点回归能较好的识别因果关系,这里使用这种方法对前文的DID回归进行稳健性检验。

9.3 更换新的数据源

何兴强 (2019) 在探讨房价收入比对家庭消费房产财富效应的影响时,为了增强研究结论的稳健性,分别使用了调查数据、宏观数据、和不同的家庭调查数据重新估计本文的主要回归。这种方法对于数据的要求较高,因此使用频率较低

10.案例(替换变量法)

如果只用一个指标托宾Q 作为因变量考察关联交易规模的影响,那么所得到的回归结果相对单一,甚至可能会影响到其准确性。因此选取净资产收益率ROE代替托宾Q 作为因变量,其定义公式为:净利润/股东权益余额。本文选择净资产收益率的另一个原因是该指标具备较强的综合性,在以往学者的研究中经常作为衡量公司绩效的指标,并且在杜邦体系研究中也处于不可动摇的地位,因此用它来进行检验具有一定的合理性。

这里,稳健性检验既有基准结果的稳健性检验,又有对异质性的稳健性检验。

esttab输出到Word文档(输出的结果不再展示),根据结果整理之后就可以放到论文里:



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有