【计量经济学导论】13. 虚拟变量与双重差分

2023-08-03 22:32| 来源: 网络整理| 查看: 265

文章目录虚拟变量与双重差分虚拟变量的模型设定虚拟变量的回归分析虚拟变量的综合应用结构变化分析交互效应分析双重差分模型双重差分模型的优点

虚拟变量与双重差分虚拟变量的模型设定

首先我们先对解释变量中的定性因素和定量因素作以下阐述：

定量因素：可直接测度、数值性的因素；定性因素：属性因素，表征某种属性存在与否的非数值性的因素。

在实际建模中，如何对定性因素进行回归分析？采用“虚拟变量”对定性变量进行量化是最常用的一种思路。其基本思想为：

直接在回归模型中加入定性因素存在诸多的困难；可将这些定性因素进行量化，以达到定性因素能与定量因素有着相同作用之目的；有些定量因素也可以采取分组的方式来研究。

虚拟变量设置的时候需要考虑以下的基本规则：

总原则为：设置能够区分所有属性的最少虚拟变量。虚拟变量取“1”或“0”的原则，应从分析问题的目的出发予以界定。从理论上讲，虚拟变量取“0”值通常代表比较的基础类型；而虚拟变量取“1”值通常代表被比较的类型。如果定性因素具有 m m m 个相互排斥属性，当模型中含有截距项时，则只能引入 m − 1 m-1 m−1 个虚拟变量；当模型中没有截距项时，则可以引入 m m m 个虚拟变量，否则就会陷入“虚拟变量陷阱”。“虚拟变量陷阱”的实质：完全共线性。虚拟变量的回归分析

在计量经济学中，通常引入虚拟变量的方式分为加法方式和乘法方式两种。

加法方式：

Y i = α 0 + β 1 X i + u i + α 1 D i . Y_i=\alpha_0+\beta_1X_i+u_i+\alpha_1 D_i \ . Yi=α0+β1Xi+ui+α1Di .

乘法方式：

Y i = α 0 + β 1 X i + u i + β 2 X i D i . Y_i=\alpha_0+\beta_1X_i+u_i+\beta_2X_iD_i \ . Yi=α0+β1Xi+ui+β2XiDi .

实质上，加法方式引入虚拟变量改变的是截距，乘法方式引入虚拟变量改变的是斜率。

含有虚拟变量的模型的分析手段：条件期望。

以加法方式引入虚拟变量时，主要考虑的问题是定性因素的属性和引入虚拟变量的个数。主要有四种情况：

解释变量只有一个定性变量而无定量变量，而且定性变量为两种相互排斥的属性；解释变量分别为一个两种属性的定性变量和一个定量变量；解释变量分别为一个定性变量（两种以上属性）和一个定量解释变量；解释变量分别为两个定性变量（各自分别是两种属性）和一个定量解释变量。

以乘法方式引入虚拟变量时，是在所设立的模型中，将虚拟变量与其它解释变量的乘积，作为新的解释变量出现在模型中，以达到其调整设定模型斜率系数的目的。

截距不变的情形： Y i = f ( X i , D i X i ) + u i Y_i=f(X_i,\,D_iX_i)+u_i Yi=f(Xi,DiXi)+ui ；截距和斜率均发生变化的情形： Y i = f ( X i , D i , D i X i ) + u i Y_i=f(X_i,\,D_i,\,D_iX_i)+u_i Yi=f(Xi,Di,DiXi)+ui 。虚拟变量的综合应用

所谓虚拟变量的综合应用是指将引入虚拟解释变量的加法方式、乘法方式进行综合使用。基本分析方式仍然是条件期望分析。

结构变化分析

结构变化的实质是检验所设定的模型在样本期内是否为同一模型。显然，平行回归、共点回归、不同的回归三个模型均不是同一模型。

平行回归模型的假定是斜率保持不变（加法类型，包括方差分析）；共点回归模型的假定是截距保持不变（乘法类型，又被称为协方差分析）；不同的回归的模型的假定是截距、斜率均为变动的（加法、乘法类型的组合）。

例：比较改革开放前后我国居民平均“储蓄—收入”总量关系是否发生变化？

模型设定为： Y t = α 1 + α 2 D t + β 1 X t + β 2 ( D t X t ) + u t Y_t=\alpha_1+\alpha_2D_t+\beta_1X_t+\beta_2(D_tX_t)+u_t Yt=α1+α2Dt+β1Xt+β2(DtXt)+ut 其中： Y t Y_t Yt 为储蓄总额， X t X_t Xt 为收入总额。 D = { 1 , 改革开放前 0 , 改革开放后 . D=\left\{\begin{array}{cl} 1 \ \ , & \text{改革开放前} \\ 0 \ \ , & \text{改革开放后} \end{array}\right. \ . D={1 ,0 ,改革开放前改革开放后 . 条件期望分析：

改革开放后： E ( Y t ∣ X t , D t = 1 ) = α 1 + α 2 + ( β 1 + β 2 ) X t {\rm E}(Y_t|X_t,\,D_t=1)=\alpha_1+\alpha_2+(\beta_1+\beta_2)X_t E(Yt∣Xt,Dt=1)=α1+α2+(β1+β2)Xt ；改革开放前： E ( Y t ∣ X t , D t = 0 ) = α 1 + β 1 X t {\rm E}(Y_t|X_t,\,D_t=0)=\alpha_1+\beta_1X_t E(Yt∣Xt,Dt=0)=α1+β1Xt 。

只要 α 2 \alpha_2 α2 和 β 2 \beta_2 β2 不同时为零，上述模型就能刻画改革开放前后我国居民平均“储蓄—收入”模型结构是否发生变化。

交互效应分析

交互作用：一个解释变量的边际效应有时可能要依赖于另一个解释变量。

例：研究人群的个人收入 Y Y Y 与其教育水平 E E E 和所在地区 D D D 的关系。

模型设定为： Y = α 0 + α 1 D 1 + α 2 D 2 + α 3 E + α 4 D 1 E + α 5 D 2 E + u , Y=\alpha_0+\alpha_1D_1+\alpha_2D_2+\alpha_3E+\alpha_4D_1E+\alpha_5D_2E+u \ , Y=α0+α1D1+α2D2+α3E+α4D1E+α5D2E+u , 其中 KaTeX parse error: Undefined control sequence: \ at position 104: …ght. \ , \ \ \ \̲ ̲D_2=\left\{\beg… 各类人员的收入表如下：

西部 ( 0 , 0 ) (0,\,0) (0,0)中部 ( 1 , 0 ) (1,\,0) (1,0)东部 ( 0 , 1 ) (0,\,1) (0,1)中等 E = 0 E=0 E=0 α 0 \alpha_0 α0 α 0 + α 1 \alpha_0+\alpha_1 α0+α1 α 0 + α 2 \alpha_0+\alpha_2 α0+α2高等 E = 1 E=1 E=1 α 0 + α 3 \alpha_0+\alpha_3 α0+α3 α 0 + α 1 + α 3 + α 4 \alpha_0+\alpha_1+\alpha_3+\alpha_4 α0+α1+α3+α4 α 0 + α 2 + α 3 + α 5 \alpha_0+\alpha_2+\alpha_3+\alpha_5 α0+α2+α3+α5

差异性描述：

中部与西部差东部与西部差东部与中部差中等 E = 0 E=0 E=0 α 1 \alpha_1 α1 α 2 \alpha_2 α2 α 2 − α 1 \alpha_2-\alpha_1 α2−α1高等 E = 1 E=1 E=1 α 1 + α 4 \alpha_1+\alpha_4 α1+α4 α 2 + α 5 \alpha_2+\alpha_5 α2+α5 α 2 − α 1 + α 5 − α 4 \alpha_2-\alpha_1+\alpha_5-\alpha_4 α2−α1+α5−α4

各类人员的收入表如下：

西部 ( 0 , 0 ) (0,\,0) (0,0)中部 ( 1 , 0 ) (1,\,0) (1,0)东部 ( 0 , 1 ) (0,\,1) (0,1)高等与中等差 α 3 \alpha_3 α3 α 3 + α 4 \alpha_3+\alpha_4 α3+α4 α 3 + α 5 \alpha_3+\alpha_5 α3+α5 双重差分模型

双重差分法，Differences-in-Differences，基本思想就是通过对政策实施前后对照组和实验组之间差异的比较构造出反映政策效果的双重差分统计量。首先强调一点，一般而言 DID 仅适用于面板数据模型，但并没有严格意义上面板数据模型所需要的过多的假设，通过引入虚拟变量并通过最小二乘法即可实现参数估计。因此我们在讨论面板数据之前，先讨论双重差分模型的应用。

前提假设：

平行趋势假设：如果实验组的事件没有发生，对照组和实验组的变化趋势相同。检验方法：比较实验组和对照组样本的 Y Y Y 随 t t t 的增长率在实验前有无显著差异。

模型设定： Y i t = α + α 1 d i t + α 2 T i t + β d i t T i t + ε i t Y_{it}=\alpha+\alpha_1d_{it}+\alpha_2T_{it}+\beta d_{it}T_{it}+\varepsilon_{it} Yit=α+α1dit+α2Tit+βditTit+εit 其中， Y i t Y_{it} Yit 为个体 i i i 在 t t t 期的结果值， d i t = { 1 , i 为实验组 0 , i 为对照组 d_{it}=\left\{ \begin{array}{ll} 1 \ \ , & i\,\text{为实验组} \\ 0 \ \ , & i\,\text{为对照组} \\ \end{array} \right. dit={1 ,0 ,i为实验组i为对照组

T i t = { 1 , 表示实验后 0 , 表示实验前 T_{it}=\left\{ \begin{array}{ll} 1 \ \ , & \text{表示实验后} \\ 0 \ \ , & \text{表示实验前} \\ \end{array} \right. Tit={1 ,0 ,表示实验后表示实验前

对 DID 模型取数学期望：

对照组+实验前 E ( Y i t ∣ d i t = 0 , T i t = 0 ) = α {\rm E}(Y_{it}|d_{it}=0,\,T_{it}=0)=\alpha E(Yit∣dit=0,Tit=0)=α 对照组+实验后 E ( Y i t ∣ d i t = 0 , T i t = 1 ) = α + α 2 {\rm E}(Y_{it}|d_{it}=0,\,T_{it}=1)=\alpha+\alpha_2 E(Yit∣dit=0,Tit=1)=α+α2 实验组+实验前 E ( Y i t ∣ d i t = 1 , T i t = 0 ) = α + α 1 {\rm E}(Y_{it}|d_{it}=1,\,T_{it}=0)=\alpha+\alpha_1 E(Yit∣dit=1,Tit=0)=α+α1 对照组+实验前 E ( Y i t ∣ d i t = 1 , T i t = 1 ) = α + α 1 + α 2 + β {\rm E}(Y_{it}|d_{it}=1,\,T_{it}=1)=\alpha+\alpha_1+\alpha_2+\beta E(Yit∣dit=1,Tit=1)=α+α1+α2+β 为了方便对比参数设定的意义，我们用如下的表格：

对照组实验组实验前 α \alpha α α + α 1 \alpha+\alpha_1 α+α1实验后 α + α 2 \alpha+\alpha_2 α+α2 α + α 1 + α 2 + β \alpha+\alpha_1+\alpha_2+\beta α+α1+α2+βDifference α 2 \alpha_2 α2 α 2 + β \alpha_2+\beta α2+β

将双重差分的思想与上表的内容结合，我们可以得到政策的净效应： D I D = α 2 + β − α 2 = β {\rm DID}=\alpha_2+\beta-\alpha_2=\beta DID=α2+β−α2=β

关键：检验交叉项系数 β ^ \hat\beta β^ 是否显著。

双重差分模型的优点可以很大程度上避免内生性问题的困扰：政策相对于微观经济主体而言一般是外生的，因而不存在逆向因果问题。此外，使用固定效应估计一定程度上也缓解了遗漏变量偏误问题。传统方法下评估政策效应，主要是通过设置一个政策发生与否的虚拟变量然后进行回归，相较而言，双重差分法的模型设置更加科学，能更加准确地估计出政策效应。双重差分法的原理和模型设置很简单，容易理解和运用，并不像空间计量等方法一样让人望而生畏。尽管双重差分法估计的本质就是面板数据固定效应估计，但是 DID 听上去或多或少也要比 OLS、FE 之流更加“时尚高端”，因而 DID 的使用一定程度上可以满足“虚荣心”。

【本文地址】

公司简介

联系我们

今日新闻

推荐新闻

专题文章