中国管理干部培训网
当前位置:首页 > 新闻视角 > 时事要闻  > 正文

双重差分方法的研究动态及其在公共政策评估中的应用
来源:中国经济网  作者:中国经济网  发布于:2018-05-23 00:06:46  本文被阅读:586次


正文 评论 (0)

 双重差分方法(简称 DID 方法)在公共政策评估中的应用越来越广泛,该方法虽然形式简单,但在应用时需要满足比较严格的条件,一般情况下对公共政策评估的研究中这些条件无法完全满足。本文在已有理论和相关研究文献的基础上,系统地介绍了经典双重差分法的思想和原理,并以模型的假设条件为线索,从违背平行趋势假设、SUTVA 假设和非线性模型三个方面对该方法研究进展及其在公共政策评估中的应用进行了论述,最后,在统一框架下比较了该方法同其他政策评估方法的差异性。旨在为研究者使用 DID 方法科学准确地评估公共政策效果提供参考。

 
关 键 词:公共政策评估;双重差分;平行趋势;SUTVA;非线性模型
 
一、引言
 
党的十八大以来,党中央大力推进国家治理体系和治理能力现代化,建立健全政策评估制度是其中的重要一环。政策评估不仅包括重大决策出台前的可行性论证与环境、经济等各方面的风险评估,也包括对政策实施效果和社会影响的评估。对政策效果科学、准确地评估有助于正确制定、执行和完善政策,提高政策的科学性,从而有助于实现政策运行和决策,更好地配置政策资源,提高政府正确履行职责的能力和水平。因果效应和政策效果评估是经济学关注的核心问题,其难点在于经济事件与经济政策的内生性问题,以及虚拟事实的不可观测性。不同于自然科学中对因果效应的研究,出于成本、法律、道德等因素考虑,社会科学一般无法使用模拟实验的方法来评估某项政策的效果。为了克服内生性问题,经济学家经常借助于“准实验”的机会,使用多种计量经济学工具来估计政策的处理效应。常见的方法包括工具变量法、断点回归、倾向得分匹配法和双重差分法,而这些方法具有各自的优缺点(Imbens and Wooldridg,2009)。本文关注的是双重差分(Difference-in-Differences,DID)方法,这主要是因为该方法发展较快,深受政策效应评估者的偏好。
 
西方早在20世纪70年代末就将DID方法引入到经济学研究领域中(Ashenfelter,1978),而国内最早引入DID方法对公共政策评估的权威文献是周黎安和陈烨(2005)研究税费改革对农民收入增长的影响。由于税费改革政策为试点改革,最早从安徽省开始实施,紧接着推广到江苏、湖南、湖北的部分县进行试点,最终推广到全国各县市。该政策在试点实施的时候使得一部分城市受到影响,而其他部分城市没有受到影响或者影响很小,因此作者将该政策的实施视为自然实验,引入DID方法评估税收改革的效果。在新方法出现到普及往往存在一个延迟阶段,2006年到2007年利用 DID方法评估政策效应的文献基本没有,而在2008年之后,不管是期刊论文还是学位论文利用该方法进行研究的数量总体呈现“J”形增长趋势(见图1),利用 DID 方法进行政策评估的做法在国内越来越广泛。但是国内很多学者在利用该方法进行实证分析时,往往忽视了假设条件,简单地将该方法视为时间和事件两个虚拟变量交互项的回归方法,这种错误的做法将导致政策评估结果存在偏误(陈林和伍海军,2015)。为此,如何理解DID方法的思想原理以及怎样正确使用该方法评估公共政策的效果?这正是本文想要回答的问题。
 
正因为DID方法受到了广泛应用,国内外出现了一些从不同角度对DID方法进行综述的文章。Blundell和Costa Dias(2002)、Imbens 和 Wooldridg(2009)以及 Lechner(2010)对DID方法的理论及研究最新进展进行了综述。陈林和伍海军(2015)主要针对国内使用DID方法进行政策评估时存在的内生性、控制组受影响、样本异质性等问题进行了评述。石华军和楚尔鸣(2017)给出了弥补这些问题导致DID方法缺陷的方法。本文将系统介绍DID方法的思想原理,并以模型假设条件为引线介绍该方法的最新研究进展、同其他政策评估模型的差异以及未来研究的方向。
 
 
 
本文其余结构安排如下:第二节,介绍 DID 方法的基本思想和假设条件;第三节,通过假设条件归纳最新研究进展并对模型在公共政策评估中的应用进行论述,给出处理放宽或违反假设条件的方法;第四节,在统一框架下比较DID方法和其他政策评估方法的差异之处;第五节,做出总结并进行展望。
 
二、经典双重差分方法介绍
 
当问及“某项政策实施是否真的有效?”时,我们会自然想到通过比较政策实施前后经济个体的差异性来评估政策效果。然而,仅仅简单地比较政策前后的差异是否真的合理呢?显然这是不合理的,因为经济个体可能同时受到如时间、宏观经济和随机干扰等因素的影响,不能纯粹反映政策效果,而 DID方法却能够很好地解决该问题。
 
DID 方法是一种估计因果效应的计量方法,其基本思想是将公共政策视为一个自然实验,为了评估出一项政策实施所带来的净影响,将全部的样本数据分为两组:一组是受到政策影响,即处理组;另一组是没有受到同一政策影响,即控制组。选取一个要考量的经济个体指标,根据政策实施前后(时间)进行第一次差分得到两组变化量,经过第一次差分可以消除个体不随时间变化的异质性,再对两组变化量进行第二次差分,以消除随时间变化的增量,最终得到政策实施的净效应。
 
假设个体i所处的组别为 Gi∈{0,1}(其中,Gi=0表示控制组,Gi=1表示处理组),时间Ti∈{0,1}(其中,Ti=0表示政策前,Ti=1表示政策后),且分组和政策的时间是随机的。Yi表示个体i的可观测结果,用表示个体i不受政策影响时的潜在结果,表示个体i受政策影响时的潜在结果。如果用Ii表示处理变量,那么个体i的可观测结果可以表示为:
 
其中,。式(1)也称为个体处理稳定性假设(The Stable Unit Treatment Value Assumption,SUTVA)。假设个体i受政策影响的效果为固定常数:
 
其中,表示个体i假设不受政策影响时的结果,为不可测变量,一般称为反事实(Counterfactual)结果。现假设不受政策影响时个体i的潜在结果变量满足线性形式:
 
其中,Xi表示i的可观测特征也称为协变量(包含常数,假设不受政策影响,满足外生性假设),εi表示个体i的不可测因素。同时假设其均值为0且独立于分组变量和时间变量,表示为:
 
假设条件也称为平行趋势(Parallel Trend)。那么可以求得式(3)的期望表达式为:
 
根据式(2)可以得到:
 
结合式(1)和式(3)可以得到包含政策效果τ的线性回归模型:
 
 
 
根据式(5)可以得到 Gi∈{0,1}和 Ti∈{0,1}四种组合下的可观测结果。
 
 
 
结合表1可以清楚知道该方法被称为双重差分方法的主要原因是:
 
同时可以从图 2 直观看出 DID 方法的原理。
 
 
 
从上面的推导过程中可以知道,为了得到经典双重差分方法的一致性估计量至少需要满足以下三个条件:(1)平行趋势条件,即处理组和控制组在没有政策干预的情况下,结果效应的趋势是一样的,也可以说在政策干预之前,处理组和控制组的结果效应的趋势是一样的;(2)SUTVA条件,政策干预只影响处理组,不会对控制组产生交互影响,或者政策干预不会产生外溢效应;(3)线性形式条件,潜在结果变量同处理变量和时间变量满足线性关系。然而,在政策评估的实证分析中,这些条件不满足应该怎么处理?或者如何放宽假设使得该方法更适合公共政策效果评估研究的需要?下面将探讨现有文献是如何在研究中解决以上问题的。
 
三、双重差分方法的研究进展
 
(一)处理非平行趋势问题
 
前文推导中平行趋势假设式(3)为完全独立性假设,其还可以表示为:
 
该假设具有直观的含义:首先,那些无法观测的因素不会影响某一特定个体进入处理组的概率,也就是说,每个样本是进入处理组还是控制组是完全随机的;其次,处理组和控制组个体的某些特征不会随着时间变化而呈现出不同的变化。
 
在实际对政策效果的研究中,平行趋势假设经常很难满足。其中一个重要原因是样本个体在分组时不是随机的,即存在“选择性偏误”(Meyer,1995)。比如在劳动经济学领域,对政府补贴的培训计划的效果评估这个经典问题的研究中,这些培训计划本身目的在于提高那些长期失业、瘾君子和刑满释放人员等在就业市场处于不利地位的人群的就业率和收入,但 Ashenfelter(1978)对项目参与者和非参与者进行比较后却发现,接受培训后培训者比相应的控制组收入更少。产生这样矛盾的原因就在于存在选择性偏误,由于受补贴的培训项目针对的是低收入人群,参与培训的人群收入本就远低于控制组人群的收入。或者说,如果没有培训项目,处理组和控制组人群的工资增长趋势也是不同的。
 
研究者需要考虑处理组和控制组之间是否存在随时间而变化但却无法观测到的异质性因素。如果处理组和控制组的基本特征存在差异,那么使用DID方法估计出来的政策效果就是有偏误的。我们可以从图3中观察出这一点。
 
 
 
当拥有的数据超过两期时,可以通过画图来直观地判断平行趋势假定是否得到满足。也可以利用“安慰剂检验”(Placebo Test)来进行检验。假如在真实的样本中,第t期实施了某项政策,记t-1期为t期的前一期,t + 1期为t期的后一期,我们可以“假想”政策是在t、t + 1等时期实施的,并利用DID方法计算这种人为“假想”出来的政策的处理效应。因为这些政策变量是我们人为“假想”出来的,所以我们期望估计出来的处理效应不显著。但如果回归结果表明处理效应显著,则产生这种现象的原因可能有两个:(1)在政策发生前,人们已经预期到政策将会实施;(2)如果我们可以排除样本个体的预期,那么我们就可以说不符合平行趋势假定,因为我们假想的任何“虚拟”政策的处理效应都可以理解为“选择性偏误”。当不满足平行趋势假定时,我们可以根据样本情况考虑采用DID方法的两种扩展来有效地估计出政策效果,分别是基于倾向得分匹配的双重差分方法和三重差分模型。
 
1.基于倾向得分匹配的双重差分方法
 
在平行趋势假定被违背的情况下,进行双重差分之前可以先使用倾向得分匹配法(Propensity Score Matching,PSM)将处理组和控制组进行匹配。具体来说,研究者可以先在基期使用倾向得分匹配法,再对得到的具有相似特征的个体进行双重差分。对使用倾向得分匹配得到的控制组进行计算可以非常有效地估计出政策效果(Hirano et al.,2003)。处理组和控制组所包含的样本量越大,我们通过该方法所估计的政策效果就越准确。
 
我们可以基于倾向匹配得分来对处理组的个体和控制组的个体在基期进行匹配,然后再利用具有共同特征的处理组和控制组的个体计算处理效应。假定存在两期t= {1,2},每个处理组个体i的处理效应为.其中权重 ω(i,j)可以使用不同的匹配方法计算。同样,我们也可以通过回归的方法进行估计。Hirano et al.(2003)发现可以使用加权最小二乘回归模型得到有效的处理效应估计量,权重可以通过倾向匹配得分来确定,回归方程的具体形式为:
 
其中系数β即为处理效应。式(7)中处理组的权重为1,控制组的权重为
 
 
案例 1:国有企业混合所有制改革对全要素生产率的影响
 
因为PSM-DID方法在一定情况下可以有效地克服违背平行趋势假设所带来的问题,所以近些年应用该方法研究中国公共政策的文献逐渐增多。刘晔等(2016)研究了我国国有企业混合所有制改革对全要素生产率的影响。在理想条件下,可以将国有企业混合所有制改革看作自然实验或准实验,那么就可以通过比较已经实行混合所有制改革的国有企业(即“处理组”)和未进行混合所有制改革的企业(“控制组”)的全要素生产率,计算出该政策的效果,或者在满足平行条件假设时可以直接使用DID方法估计混合所有制改革的效果。但是,在该研究中有两个原因可能导致平行趋势假设被违背。第一,国有企业进行混合所有制改革并非是随机的。绩效较好的国有企业或效率更高的企业更愿意选择民营化(胡一帆等,2006;刘小玄和朱克朋,2012),即可能存在所谓的“靓女先嫁”现象。竞争程度更高的行业也更可能引入其他资本。所以,直接进行估计会产生选择性偏差。第二,处理组和控制组的国有企业全要素生产率之间的差异有可能是由其他不可观测的、不随时间变化的因素产生的,直接进行比较可能会产生异质性偏差。于是,刘晔等(2016)首先对所选的样本进行倾向得分匹配,在匹配过程中将样本分为处理组(T)和控制组(C),前者表示企业进行了混合所有制改革,后者则在考察期内未进行混合所有制改革。选择企业的总资产、固定资产、平均工资水平、就业人数、企业年龄和企业负债率等作为匹配变量,通过概率公式估计出国有企业实施混合所有制改革的预测概率值,再用倾向得分匹配法将预测概率值相近的企业进行配对,从而得到一组与处理组主要特征相似的控制组企业。紧接着定义改革的虚拟变量reformit,当 i∈T 时取1,否则取0;定义时间虚拟变量timeit,改革之前的时期取0,之后的时期取1。然后构建如下双重差分方法来估计混合所有制改革对企业全要素生产率的影响。
 
其中,ui为个体固定效应,τt为时间固定效应,Zit为其他控制变量。在模型(8)中β1便体现了国有企业混合所有制改革对企业全要素生产率的影响。刘晔等(2016)选取2001年到2007年的企业数据,处理组和控制组一共有1096家国有企业,对模型(8)中的参数进行了估计,主要回归结果见表2。
 
表2中TFP_OP和TFP_LP分别表示用OP法和LP法得到的企业全要素生产率。从回归结果中可以看出交互项“reform×time”的系数显著大于零,所以可以得出结论认为国有企业的混合所有制确实能够提高企业的生产效率。
 
 
 
2. 三重差分模型
 
倾向得分匹配法处理平行趋势无法满足的情况适用于大样本数据,当基期的样本数据不够丰富时,一个可能的解决方法是使用三重差分法(Triple-Difference Method)。我们借用一个例子来说明三重差分模型的核心思想。
 
刘晔和张训常(2017)以我国开展的碳排放交易试点为准自然实验,研究了碳排放交易制度对企业研发创新的影响。因为碳交易试点政策只涉及试点省份中试点行业中的企业,试点行业包括石化、化工、建材、钢铁、有色、造纸、电力和航空八大行业。所以,如果按照经典双重差分方法的思想,有以下两个思路来估计处理效应:一是把试点省市里试点行业的企业作为“处理组”,把试点省市中的其他行业作为控制组进行双重差分方法估计;二是把非试点省份中试点行业的企业作为控制组。这两种做法均有一定的不足之处:第一种做法可以消除因省份不同导致的时间趋势的不同,但是需要假定处于不同行业的企业研发投入强度的时间趋势是相同的;第二种做法则正好相反,可以消除企业研发强度在不同行业之间时间趋势的不同,却必须假定不同省份的企业研发投入的时间趋势相同。
 
三重差分模型则把以上两种方法结合起来,克服了两种方法各自存在的问题。具体来说,先分别计算两个双重差分估计量,再对这两个估计量进行差分,共差分了三次,故称为三重差分法。当企业j位于试点省市,记Cproviđt=1,否则Cproviđj =1;企业i若属于受影响行业记为 Cindusiđk=1,否则Cindusiđk=0;企业处于试点后时期记为postt=1,否则记为postt=0。那么,方法1得到的估计量为:
 
方法2得到的估计量为:
 
三重差分估计量就是上述两个双重差分估计量之差.
 
这样三重差分估计量就能够同时控制地区差异和行业差异所导致的企业研发强度时间趋势的不同。
 
同样三重差分模型也可以通过回归的方法得到,正如刘晔、张训常(2017)构造的如下计量模型。
 
 
 
其中,i,j,k,t 分别代表企业、省份、行业和时间,Zi,j,k,t 为企业层面的控制变量。在该方法中,“β1+β6”表示碳排放交易试点实施以后,试点省市非试点行业中企业研发强度的变化;“β2+β6”表示碳排放交易试点实施后,位于非试点省市却处于试点的八大行业中企业的研发强度变化。可以看出所有企业的共同趋势为β6。而处理组企业在碳排放交易试点之后研发强度变化为δ+β1+β2+β4,那么估计量表示的就是碳排放交易试点对处理组企业研发投入强度的净影响,对模型(9)进行回归便可估计出处理效应为.
 
(二)放宽SUTVA条件
 
在评论 Basu(1980)的随机性检验的文章时,Rubin(1980)首次界定SUTVA 条件指的是任何一个个体被干预时,不管干预的机制是什么,也不管其他个体受到什么干预,它的潜在结果都是一样的。这个假设条件具有两个关键内容:一个是每一个个体所接受的处理水平是唯一的,所导致的潜在结果也是唯一的;另一个是干预的结果不受其他个体所接受处理的影响。
 
1. 条件之一:非混淆性
 
该条件要求接受处理的个体所受到的干预是一样的,从数学角度来讲SUTVA 要求每个个体的潜在结果都和干预的项目具有明确定义的函数关系而不是随机映射的。比如,要设计随机实验研究阿司匹林对头痛的治疗效果,对于不同病人应该给予服用具有相同药性、相同规格的阿司匹林,如果服用不同的阿司匹林将会混淆结果。近期流行病学科学研究者中,通过放宽 SUTVA 假设来设计随机实验(Schwartz et al.,2012)。
 
通过放宽 SUTVA 第一个条件评估政策效应的文献还是很少见,主要是因为这种“混淆”很难被清晰地分离。在政策评估中,所设计的准实验如果不满足 SUTVA 第一个条件将导致政策评估出现偏误。正如陈林和伍海军(2015)对王鑫和吴斌珍(2011)、汪伟等(2013)的税费改革研究中利用“连续型双重差分方法”进行评价时,认为研究中税收减免量的大小是一个连续的变量,直接简单地将减免额大的样本作为处理组,减免额小的样本作为控制组,会导致控制组样本同样受到了税费改革的影响,不满足 SUTVA 第一个条件,从而混淆了税收减免的处理效应。
 
放宽 SUTVA 条件进行政策评估的研究的一个思路是对同时存在多个干预政策的处理效应进行评估(Viet,2008;Chabé-Ferretab,2013)。假设在两个政策共同干预下,政策a对应的处理变量为Ga和政策b对应的处理变量为Gb,对于任意干预政策 j∈{a,b},如果j=a,那么-j=b有四种潜在结果 那么政策 j 的平均处理效应为:
 
 
 
其中,概率Pr(Gb = 1|Ga=1)和 Pr(Gb=0| Ga=1)可以通过倾向得分匹配方法得到。因此,在政策评估时,如果出现两个政策共同作用时可以考虑利用该方法分离出单个政策的效应。
 
案例 2:法国农业环境政策对农作物种植的影响
 
Chabé-Ferretab(2013)考察了法国农业环境(Agro-environmental Schemes,AES)政策对农作物种植的影响,评估了该政策下的几个小条例的实施效果。其中条例02(包括0201和0205)补贴种植多样性农作物,主要用农作物种植面积,及其占可用面积的比例、农作物的数量和 Evenness多样性指数四个变量衡量政策效果。条例0301和条例04为了减少由雨水带来的土壤中过多的氮元素的补贴,其政策效果分别用农作物种植的覆盖面积和农田边缘的无肥料草缓冲带的面积衡量。条例08和条例09为了抑制氮肥的使用而设立,即使没有受到条例0301的干预,也能减少土壤中的氮元素。条例21补贴转种有机农作物农户,用有机农作物种植面积和每年转换的面积两个变量衡量政策效果。为了分离多个政策之间的交互影响,作者根据式(10)计算得到每个政策的直接效应,并通过子样本估计农户不受某项政策直接影响但是通过其他政策产生的交互效应,结果如表3所示。
 
 
 
从表3可以知道,为了鼓励农户种植多样性农作物实施的条例中,条例0201的政策效果强于条例0205的政策效果。其他政策对农作物种植的交叉效应基本都小于条例 02的直接效应,所有政策都增加了农作物的种植数量。为了鼓励减少土壤中的氮元素而实施的两个条例中,条例0301能够直接提高农作物的种植面积,而条例04对草缓冲带面积也没有影响,且除了条例0201和条例0205外其他条例对草缓冲带的面积都没有交叉影响。为了鼓励农户转种有机农作物而实施的条例21对有机农作物的面积和每年的转种面积有显著影响,其他条例对农户换种有机农作物没有交叉影响。因此在多个政策共同影响下,利用式(10)能够有效地将某个政策的直接效应从中分离出来,为DID模型处理多变量问题提供有效思路。
 
2. 条件之二:互不干扰
 
有时会出现 SUTVA 的互不干扰假设不满足的情况。比如,在大规模职业培训项目中,如果受培训的人数非常大以至于在有限的岗位中产生激烈竞争,那么受培训个体的好处将被激烈的竞争抵消,因此受培训和未受培训个体间因政策干预而存在相互影响。这在经济学上被称为一般均衡效应(General Equilibrium Effects),一般可以通过合理限定受培训个体的数量以降低抵消效应。例如在现实生活中,注射传染病疫苗对其他人具有相应的影响,如果所有人都注射了传染病疫苗,而你是否注射疫苗将不会有很大影响,如果没有人注射疫苗,而你注射了疫苗,那么是否注射疫苗会对你是否得传染病有很大的影响。这两个例子都表明了不管在随机实验还是自然实验(准实验)中,均可能面临在干预条件下处理组和控制组相互影响的现象,对应政策评估时应该如何处理呢?
 
在对某项政策进行评估时,可以通过选取合适的控制组来避免处理组和控制组之间因政策干预而相互影响。比如在研究某一项优惠政策对处理组行业的处理效应时,应该考虑所选取的对照行业和处理组行业之间的产业链间是否存在上下游关系,而且政策实施是否会因为此关系链而影响控制组行业。具体以“营改增”政策为例,该政策主要针对服务业,范子英和彭飞 (2017) 研究“营改增”政策对产业间的微观效应(减税效应和分工效应)时,考虑到如果用制造业作为控制组,将导致估计偏差,这主要是因为制造业运行过程中购买了大量生产性服务,这些生产性服务在“营改增”政策实施之前是不可以抵扣的,但在之后却纳入了抵扣的范围之内。从 SUTVA 条件来说,直接以制造业作为控制组将不满足无互相干扰的假设条件,即“营改增”政策的实施不仅对服务业产生影响,同时会因为产业链关系而影响制造业产业。因此作者选用了非试点行业作为控制组,由于非试点行业本身不是增值税行业,即使有购入“营改增”政策实施的行业产品,纳入的行业产品仍然不能在进项税中抵扣,所以“营改增”政策或服务业对非试点行业完全无影响,也就满足了 SUTVA 条件。
 
如果某项政策的实施会通过处理组间接对控制组产生影响,则有必要尽可能地将该间接政策效果分离出来。这主要是因为如果政策对控制组具有正向间接影响,而我们直接用经典 DID 方法进行测度时,将低估政策的平均处理效应,反之将高估政策平均处理效应。近期出现了一些通过放松 SUTVA 条件来研究项目(政策)溢出效应的文献,如 McIntosh(2008)、Angelucci 和Maro(2010)。比如 Angelucci 和 Maro(2010)认为拉丁美洲等地区享受条件现金转移(Conditional Cash Transfer,CCT)政策的个体可能会向没有资格享受该政策的个体购买商品或分享其得到的资助,因此该政策也会间接对没“资格”享受的个体产生影响。具体来说,假设该政策在某个地方v实施表示为Gv=1,没有实施表示为Gv=0,即使某个地方v实施该政策,该地区内的个体i需要满足一定条件才具有“资格”享受政策Ei=1,没“资格”表示为Ei=0,政策实施前表示为Ti=0,政策实施后表示Ti=1,具有间接效应(溢出效应)的线性回归形式表示为:
 
其中,α4+α6为平均处理效应ATE,α6为间接处理效应ITE。总的平均处理效应为:
 
其中分别为被处理和未被处理的个体样本比率,且两者之和为1。
 
(三)非线性DID 方法
 
1. 离散型被解释变量
 
前文分析表明经典 DID 方法可以用线性回归形式表示,但是在实证分析中常常会碰到被解释变量为离散形式的非线性模型,如二分类变量的Logit或Probit模型。在实证分析时,我们可能会想可否直接将Logit或 Probit的处理变量和时间的交互项的回归系数作为政策的平均处理效应?答案是不可以,这是因为对于非线性模型的交互效应不能简单地看交互项的系数而必须计算交互项的混合偏导数或者混合差分(Ai and Norton,2003),同样 Puhani(2012)指出对于非线性DID方法,只要其具有严格单调的非线性转换函数(如Probit模型为正态分布,Logit模型为Logit 分布),那么其处理效应不是简单等于可观测数据的混合偏导数,而是等于可观测数据条件均值的混合偏导数与控制组潜在结果条件均值的混合偏导数之差,具体为:
 
 
 
虽然 Puhani(2012)给出了严格单调递增函数形式的非线性DID方法的平均处理效应的理论值,但是并没有对有限样本下该非线性DID方法处理效应估计进行讨论。
 
由于该非线性 DID 方法构建非线性转换函数通常是在非线性函数内设定线性指数,而这些非线性模型通常无法同线性模型一样直接从 DID 方法中变换得到。为此 Lechner(2010)指出在标准的共同趋势假设下,可以简单地应用非线性模型的参数近似估计四种平均效应,然后根据扰动项设定的分布求得每个样本的效应值,进而得到平均处理效应。比如,对于二分类的被解释变量,我们可以利用 Probit 回归估计子样本下的参数,并根据平均处理效应公式计算:
 
 
 
其中i表示个体,t表示时间,g表示组别。t ∈{0,1},当t=0时表示处理前,t=1时表示处理后。g∈{0,1},当g=0时表示控制组,当g=0时表示处理组。表示将作为被解释变量,作为解释变量进行probit回归得到的参数估计量(包括常数项)。为标准正态分布的累积分布函数。Lechner(2010)还根据Blundell(2002)的思想,证明得到在调整后的潜在结果的共同趋势假设条件下的平均处理效应的一致估计量为:
 
正因为满足经典 DID 方法适用的基本假设条件下,可以根据政策结果变量的具体形式扩展经典的 DID 方法,用来评估政策的处理效应,所以离散型被解释变量的非线性 DID 方法在政策评估分析中被广泛地应用。Bronzini 和Piselli(2016)为了评估意大利艾米利亚—罗马涅大区实施的创新政策对企业创新的影响时,将专利申请作为企业创新代理变量,对计数的专利用Poisson DID方法,对二元的专利(政策实施后至少有一个专利申请为1,没有专利的为0)用 logit DID方法进行实证分析。Courtemanche和 Zapata(2014)研究美国马萨诸塞州的医疗改革对居民健康的影响时,被解释变量自我报告的健康指数(0 表示“差”,1表示“一般”,2表示“好”,3表示“很好”和“4”表示非常好)是有序离散变量,因此作者用有序 Probit DID 方法进行建模分析。这些文献都是根据被解释变量的形式来扩展经典的 DID 方法,这给政策评估的研究者提供了另一个可行的思路。
 
2. 连续型被解释变量
 
为了解决经典的 DID 无法处理 Heckman 和 Smith(1997)所论述的异质性处理效应的问题,Athey 和 Imbens (2006)提出了可以适用于连续型解释变量的非线性双重差分方法(Nonlinear Difference-in-Difference,NL-DID),也称为双重变换模型(Changes in Changes,CIC),该方法可以估计处理组和控制组的潜在结果分布,识别更加有效的处理效应分布,提供更广阔的研究视角。CIC 模型假设处理组和控制组的潜在结果具有异质性分布,通过该假设可以构造处理组的“反事实”分布,因此可以用来评估非随机实验的政策效果问题。具体的方法是将控制组经验分布的反函数作为处理组的“反事实”的分布函数,进而求出处理组的“反事实”的潜在结果,最后将处理组的可观测结果均值和“反事实”的潜在结果均值的差作为平均处理效应。其中,处理组的“反事实”指的是假设处理组没有受政策影响时其结果会怎样?因此,此处理组的“反事实”分布指的是如果处理组不受政策影响时其结果的分布。该方法与经典 DID 方法不同的是其假设控制组个体的结果变量满足非线性形式而不是简单的线性形式,即
 
其中,f(·)为严格递增的未知函数,当即为经典 DID方法。利用 Athey和 Imbens(2006)的定理3.1和定理3.2可以得到控制组的“反事实”分布函数为:
 
其中,表示控制组的“反事实”分布,该分布不可观测,和分别表示在给定组别和时间下的条件分布函数,为可观测分布。经过一系列变换最终可以得到具有异质性的平均处理效应:
 
现阶段 CIC 模型在国内外实证应用还相对较少,就我们知道,Lucas 和Mbiti(2012)利用该模型研究了肯尼亚小学义务教育政策对升学考试成绩分布的影响(见案例 3)。项后军(2016)将“设立自贸区”视为自然实验,通过合成控制法(Abadie,2003)生成与处理组相对应的组合控制组,利用 CIC模型分析了自贸区设立对资本流动的影响,结果表明上海自贸区的设立对资本流动具有正向影响。
 
与 CIC 模型相似的另一个特殊形式的非线性 DID 方法是分位数双重差分(Quantile Difference in Difference,QDID)。QDID 方法和经典 DID 方法的主要区别在于 QDID 方法能够求出不同分位点上的处理效应,而不是平均处理效应,因此该方法可以用来分析不同分布的协变量下政策实施的效应(Athey and Imbens,2006)。Bonhomme 和 Sauder(2011)、Fan 和 Yu(2012)对分位数 DID 方法识别问题进行探讨。Callaway 和 Yu(2017)研究了基于面板数据的 QDID 方法识别问题。QDID 方法出现的时间比较早,虽然在国外应用比较广泛,如 Havnes 和 Mogstad(2015)利用该方法分析挪威儿童保育的效应问题,但是国内利用该方法进行政策评估的文献还比较少。就我们的了解,彭飞(2016)利用经典 DID 方法证实捐赠抵税政策确实增加了企业的捐赠额,为了进一步研究该政策对不同捐赠规模企业是否具有异质性效应,引入了QDID 方法,结果发现捐赠抵税政策对不同捐赠力度区间的企业都有正向作用,但这种作用主要集中在捐赠规模较小企业内,即表明捐赠规模较小的企业在捐赠抵税政策的影响下更能扩宽其捐赠额度。
 
案例 3:肯尼亚小学义务教育政策对升学考试成绩分布的影响
 
Lucas 和 Mbiti(2012)利用 CIC 模型研究了 2003 年肯尼亚实施小学义务教育(Free Primary Education,FPE)政策对市区小学升学考试成绩分布的影响。假设接受政策干预的处理组的反事实状态(即考试成绩的分布)同控制组的分布一样。用市区中辍学人数占八年级总人数的比例衡量小学义务教育政策实施的强度,并将强度大于平均值的市区作为处理组,将强度低于平均值的市区作为控制组,将标准化的升学考试成绩作为衡量政策效果的变量。估计的结果如表4所示。
 
 
 
从表 4 可以知道,模型(1)的结果表明小学义务教育政策对成绩位于中位数水平的学生的影响为正值但很小,且在统计上没有显著异于 0,对成绩在更高分位点的学生具有负向影响但不大于 0.051,其中对成绩在 75% 和 80%的学生具有负向影响,值约为 0.03,在 1% 显著水平下显著。总的来说,具有平均强度上实施小学义务政策的市区的学生参加小学升学考试的成绩会比其他市区的学生的成绩低 0 至 5% 标准误,表明小学义务教育政策对学生的升学考试成绩的影响较弱。其他模型均为模型(1)的稳健性检验模型,结果均支持模型(1)的结论,在此不多述。因此,利用 CIC 模型能够有效分析政策对结果变量分布的影响。
 
四、同其他政策评估方法的差异性比较
 
政策评估中常用方法除了 DID 方法之外,还包括匹配、合成控制和断点回归等其他方法。已经有大量文献对政策评估的方法进行很好的论述,比如Doudchenko 和 Imbens(2016)把 DID、合成控制以及约束回归纳入统一的分析框架。Imbens 和 Wooldridg(2009)、Khandker et al.(2010)和赵西量(2017)系统介绍当前政策评估中常用的几种识别策略。限于文章篇幅,本节不打算详细介绍每一种方法,仅对几个常用的政策评估方法的思想原理、优缺点及其同 DID模型的差异性在统一框架下进行描述。表5为四种政策评估方法主要差异。
 
 
 
匹配方法也是政策评估中常用的一种方法,其主要思想是,根据某种“距离”将在控制组个体与处理组进行匹配,并用成功匹配的控制组个体的观测结果近似表示处理组个体的反事实结果,通过比较两组的平均差异作为政策的平均处理效应。匹配方法实施前要求满足条件独立性和共同区间两个假设条件,所谓条件独立性指的是在控制协变量后,个体到底在处理组还是控制组,是独立于潜在结果;所谓共同区间假设条件指的是要求样本中要同时存在处理组和控制组。匹配方法主要包括精确匹配和倾向得分匹配。精确匹配根据可观测变量进行匹配,往往面临观测变量越多,匹配效果越差的“维数诅咒”问题。Rosenbaum 和 Rubin(1983)为了解决这一问题,将根据多维可观测变量进行匹配的方法变为一维倾向得分匹配方法,即根据控制组个体受干预的概率进行匹配,一定程度上降低了样本的自我选择问题,也正是这一点使得倾向得分匹配在政策评估中得到了广泛应用。匹配方法同 DID 方法的联系之处在于,DID方法可以看成一种特殊的匹配方法,是对潜在结果增量的匹配,而不是直接对潜在结果进行匹配。该方法的主要缺陷在于不允许存在未观测的混杂因素,即无法解决内生性问题。一般可以将匹配方法同 DID 模型结合,消除不随时间变化且未观测的混杂因素,以此减轻内生性问题(如案例 1)。同时该方法要求控制组中要有足够的个体可以供处理组个体进行匹配。
 
Abadie 和 Gardeazabal(2003)、Abadie et al.(2010)提出了合成控制方法,其主要思想是,尽管控制组个体和处理组个体的特征不相似,但是可以对这些控制组个体进行某种加权,构造出处理组个体的反事实状态。从差异性来说,该方法适用的场景类似 DID 方法,都要求政策实施对处理组有影响,但是对控制组没有影响,不同的是其要求政策干预在某时刻只影响一个地区或国家,而其他地区或国家在所有时间内都没有受到该政策的影响,如上海自贸区试点或者中国 4 万亿元刺激方案政策性问题,而且往往要求结果变量是加总变量,而非个人或单个企业的信息,如宏观经济变量。简单来说,DID 方法针对具有多个处理组个体和控制组个体,且处理组和控制组具有一定相似性,而合成控制方法适用于处理组个体较少的政策评估问题。另外,DID 方法可以通过差分解决不随时间变化且未观测到的混杂因素,但是无法克服由于存在随时间变化的混杂因素而导致内生性问题,而合成控制法却能很好地解决该问题。该模型的主要缺陷在于,合成控制法要求进行加总的权重必须保持在 0 到 1 之间,因此,如果处理组的特征远远大于或者小于控制组的特征,那么将找不到合适的权重构造处理组的反事实状态,也就无法利用控制组的特征向量的凸组合构建处理组的特征向量。当然可以通过放松假设,允许负权重存在,类似合成控制方法得到一个控制组,比如 Hsiao et al.(2012)的回归合成方法。
 
Thistlethwaite 和 Campbell(1960)最早提出了断点回归模型,该模型的主要思想在于,寻找一个参考变量,该变量的某临界值能够决定哪个个体能够成为政策干预对象即处理组,哪个个体不能成为政策干预对象即控制组,将控制组的结果变量作为处理组的反事实状态。断点回归可分为精确断点回归和模糊断点回归。精确断点回归假设干预分配完全由参考变量决定,而模糊断点回归则假设干预状态不是完全由参考变量决定,还与其他未观测到的因素有关。精确断点回归与其他几种政策评估的不同之处在于,其不满足共同区间假设,即当参考变量大于临界值时,所有个体都进入处理组,而当参考变量小于临界值时,所有个体都进入控制组。断点回归模型的主要缺点在于,若个体能够精确控制是否接受政策的参考变量,那么临界点附近的干预状态的分配就接近完全随机实验的结果,断点回归的估计将无效。此外,断点回归模型和完全随机实验一样,内部有效性较强,而外部有效性较弱,即只能估计断点处的平均因果效应,不能简单推广到其他位置。针对该问题,Angrist 和 Rokkanen(2015)引入了类似于匹配方法的条件独立性假设,假设引入其他协变量后,参考变量和潜在结果之间是独立的,只要根据协变量而不是参考变量进行匹配,可以将因果效应外推到断点左右任意位置。
 
上述三种不同于 DID 模型的常用方法也为政策评估的有效性提供了方法保证,都具有各自的优缺点和适用范围,因此在政策分析的实证过程中应该根据所处的场景判断使用合适的模型,避免由于模型设定错误导致政策评估结果偏差。
 
五、结论与展望
 
本文在实验理论和相关理论的基础上,根据模型的假设条件论述了经典DID 方法的思想原理,并从共同趋势、SUTVA 和非线性三个方面归纳总结了DID 方法的最新研究进展、同其他政策评估模型的差异及其在政策评估中的应用。研究发现:
 
(1)平行趋势条件是使用 DID 方法的最基本的前提条件,也是验证估计结果是否存在偏误的主要评价依据。当公共政策实施前的数据超过两期时,可以通过图形或安慰剂来检验处理组和控制组是否满足平行趋势,对于因“选择偏误”等原因导致的违背平行趋势条件的样本数据可以考虑通过 PSM-DID 方法或者三重差分模型来测算,这个方法在国内评估政策效果时用得相对较多。
 
(2)近些年国外已有文献开始通过放宽 SUTVA 条件对双重差分方法进行研究。在政策评估中为了避免违背“非混淆性”条件,应该尽量找那些受相同政策影响而且政策影响效果尽可能一样的样本作为处理组,找那些没有受政策影响的样本作为控制组,而对于两个政策同时实施时可以引入两个处理变量分离单个政策的影响。为了避免违背“互不干扰”条件,在选择处理组和控制组应该尽量避免两组别具有关联性质,当确实存在相互影响如溢出效应时,可以引入衡量溢出效应强弱的“距离变量”分离出直接效应。
 
(3)我们认为可以将非线性 DID 归纳为离散解释变量和连续解释变量两个类型。在利用离散解释变量的非线性 DID 方法(如 ProbitDID 方法或LogitDID 方法)进行政策评估时要注意其计算的处理效应等于可观测数据条件均值的混合偏导数与控制组潜在结果的条件均值的混合偏导数之差,而不是非线性回归模型的交互项系数。当我们想要减少因个体异质性而产生的估计偏误或想要进一步研究不同分位数下的政策效果可以利用 CIC 模型或者 QDID方法进行估计。DID 方法在公共政策评估中的应用越来越广泛,但是如果盲目地使用而不顾及模型的假设条件,估计的结果可能存在偏误。而错误地利用该方法进行政策效果评价,可能导致资源错配、要素扭曲等后果。为此本文旨在起到抛砖引玉的作用,通过论述 DID 方法在放松假设条件下的扩展,为后续政策研究者利用 DID 方法评估政策效果提供一定的参考。
 
姓名 登录 后发表评论 立即注册

200个字符以内

 
阅读排行
2011-政府工作报告
两会回顾:政府工作报告
换届之年,领导干部如何书写自己的幸福
习近平在省部级主要领导干部学习贯彻十八届...
新生代农民工城市融入程度较低地位差距感受...
国家"十二五"时期文化改革发展规划纲要
调查显示内地150万名智障人士有"被奴工"风...
北京规定超量重复开药不报销医院违规取消定...
开局之年续写中国精彩
多国限制进口日本食品
图片信息

主办:中国人民大学公共政策研究院  协办:仁达君仕管理咨询中心
联系电话010-82509745  传真:010-82504670
中国人民大学公共政策研究院       版权所有  京ICP备09059039号