经济学的经验研究方法
过去30年里,经济学的研究重点明显偏移到经验研究,30年前顶尖杂志大多数文章都是理论模型,但是现在经验研究明显占优势。相对应的经济学内对经验研究方法的争论也变得非常激烈。对于行外人来说,这方面的争论由于不涉及具体的经济政策,因此远不象淡水,咸水之间的争论有吸引力。但是对搞经济学研究的,包括我个人来说,这些争论直接涉及到写文章、发文章的问题,因此更重要,也更有意思的多。我今天挺闲,又不想写有争议性的题目,就写写structural和reduced-form经验研究方法的争论,不过这个题目对大多数人来说可能太枯燥了。自然科学和社会科学的主要区别就在于在社会科学里很难做真正的randomized experiment,存在endogeneity的问题。照我经济计量学教授的说法,经济学和其他社会科学的区别就是经济学家理解,而其他学科不懂endogeneity的问题。举几个例子,说明一下什么是endogeneity。
比如我们想研究政治制度(比如一个国家是否民主)和经济增长速度关系的问题。最简单的方法就是将经济增长速度和政治制度作回归,看民主国家是否经济增长更快。抛开其他统计问题,比如怎么来量化政治制度,经济增长速度的统计误差等等,这个方法最严重的问题就是endogeneity。如果我们用医学实验作为研究的蓝本,那么最理想的情况就是将世界上接近200个国家随机分为好几组,每组实行不同的政治制度,30年之后统计比较它们经济增长速度的不同。这种理想情况当然不可能出现,但是用来对比就可以发现简单回归分析的问题所在。现实世界中一个国家的政治制度并不是被随机的,而是由一个国家的历史,地理,经济,文化等各种因素决定的。而这些因素很明显也对经济增长速度有很大的影响,因此如果简单的回归分析结果发现民主国家经济增长快,我们并不清楚到底是政治制度本身影响经济增长,还是导致一个国家选择民主制度的这些因素促进经济增长,政治制度本身没有任何影响。用统计学的语言就是是否有我们没有观测到的因素和政治制度及经济增长制度都相关,这样的话用回归方法估计出的结果是biased,不可靠。
劳动经济学里最重要的一个研究课题就是估计教育对一个人一生收入的影响。但是直接将收入和教育程度作回归,会遇到endogeneity的问题。因为一个人的教育程度并不是被随机决定的,一个人的能力,家庭环境有极大的影响。能力高,父母重视教育的人教育程度也高,但是能力,家庭环境明显对一个人的收入有很大的影响。因此直接回归的结果很可能高估教育对收入的作用。
教育经济学里一个领域是研究班级人数对学生成绩的影响。直觉上,班级人数如果小的话,老师对每一个学生会投入更多的精力,学生的成绩会提高。但是一个学校的资源有限,要做收益-成本分析,决定最优的班级人数,需要知道确定的数值。美国的中小学教育是分散制,教育政策包括班级人数由各个校区自己决定。有钱人居住的校区,资源多,老师多,班级人数少,穷人校区相反。因此直接将学生成绩和班级人数作回归得出的结果有很大的bias,也就是说有endogeneity的问题。
如果仔细考虑一下,几乎所有经济学包括其它社会科学研究的问题都面对endogeneity的问题。因此几乎所有社会科学的经验研究都可能不可靠。即使回归分析的p-value小于0.001,我们也不能确定的参数到底是不是0。因此过去几十年,经济学家想出各种方法来解决endogeneity的问题。
一种最明显的方法是将这些其他变量直接加入回归方程,作为控制变量。这样回归分析结果就去除了其他因素的影响。但是这种方法在大多数情况下并不能完全解决问题。比如对于政治制度和经济增长的研究,本来数据就不多。而这些其他影响经济增长的因素到底是什么我们不是很清楚。加控制变量太少,不解决问题,加太多了,statistical power会大幅度降低。比如有的因素可能被政治制度决定,但是不影响经济增长速度。如果我们把它加入回归方程,会出现multilinearity的问题。即使事实上政治制度确实影响经济增长,但结果可能显示统计不显著,。
关于收入和教育关系的研究。如果我们加入很多家庭背景的变量,这样的回归其实就是比较一个家庭里兄弟姐妹收入差别和教育程度差别的关系。如果我们再加上出生时间作为控制变量,结果就是比较双胞胎收入差别和他们教育程度差别的关系。从表面上看,双胞胎DNA是一样的,因此能力是一样的,家庭背景也完全一样,因此用他们的收入差别和教育差别作回归,就避免了endogeneity的问题。可是仔细考虑一下,我们就会提出疑问。既然他们各种情况一样,为什么教育程度不同呢?可能其中一个人小时候得了重病,影响了学业,可能是父母对其中之一特别偏爱,或者其他许多可能。但是这些因素比如身体情况对收入也会有影响。因此连双胞胎研究也无法避免endogeneity的影响,其它研究加控制变量结果的可靠性更成问题。
80年代后期,经济学的经验研究走了两个不同的方向。有的经济学家基本上放弃了经济理论对经验研究的指导。他们的方法是寻找最大程度接近randomized experiment的数据,从而解决endogeneity的问题。这一派被称为reduced form。他们的统计方法一般比较简单,普通人没有什么数学和统计学的训练也可以弄懂。由于经济学家要对实际的政策制定发生影响,必须要说服议员,市长等政客。因此reduced-form在这方面有很大的优势。
Structural派的经济研究则是完全从经济理论出发。比如研究教育同收入的关系,就直接从效用最大化来直接model教育程度的确定。Structural的统计方法一般很复杂,一个估计的程序电脑运行经常就要好几个月。这一派具体的模型细节和估计方法不要说普通人,就是研究其他领域的经济学家要搞懂也要花很多时间,因此对政策制定影响要小。但是structural的方法也有它的优点。我们可以用structural模型估计的参数作预测,对不同的政策选择作分析,reduced-form结果应用的局限性要大一些。
接下来我就介绍一下reduced-form和structural两派的具体方法。由于reduced-form方法比较好懂,我就写得详细一些,structural那一派就简略一些。
Diff-in-Diff
Difference-in-Difference是比较早的reduced-form一种方法。有人称Diff-in-Diff是Natural Experiment。我后面用Natural Experiment指更严格的更接近随机实验的设计,因此用法有些不同。Diff-in-Diff具体指什么,接下来举几个具体例子。
劳动经济学里争论比较激烈的一个问题是最低工资对失业率的影响。就最基本的经济学原理来说,最低工资如果很高,劳动力市场供给会大于需求,会大大增加失业率。现在美国的最低工资是7.25美元,我们可以想象一下,如果增加到30美元,很多企业会关门或削减员工,失业率会大幅度增加。但是在现有水平上将最低工资增加一点,比如增加到8美元对失业率的影响有多大却不是很清楚。我们需要用经验数据来研究增加最低工资对失业率的实际影响。一个办法是在美国联邦政府增加最低工资后比较失业率的变化。比如2007年Fair Minimum Wage Act将最低工资由5.15美元升为7.25美元。但是影响失业率的不仅有最低工资,还包括很多宏观经济的因素。因此我们不能因为过去3年美国失业率大幅度增加就作结论说这都是增加最低工资的结果。用医学实验研究来做个类比,我们需要两组,一组是treatment组,最低工资增加,一组是control组,最低工资不变。然后比较这两组失业率的变化。David Card和Alan Kruger注意到1992年新泽西最低工资由4.25美元升为5.05美元,而临近的宾西法尼亚最低工资不变。宏观经济因素对两个州失业率的影响应该是相似的。因此他们搜集数据计算新泽西和宾西法尼亚在1992年11月到12月之间快餐业就业人数的变化(第一次difference),然后再比较这两个difference的差别(diff-in-diff)。他们的结果是最低工资的增加增加了快餐业就业人数。不过这个结果是statistically insignificant。他们的结论是最低工资对就业人数没有影响。(这项研究很有名,对它的批评也很多,河友感兴趣的可以找论文读一下。)
由于美国是联邦制,许多制度各个州都不一样,这就给了经济学家使用Diff-in-Diff方法提供了很大的方便。这方面比较早论文还包括Jonathan Gruber研究childbirth mandate的文章。1970年以前,美国政府不要求雇主提供的医疗保险包括妇女生育。在70年代,23个州要求雇主提供的医疗保险包括妇女生育,1978年联邦法律通过所有的州都要求childbirth mandate。额外的保险增加了雇主雇佣女性的成本,因此经济学家对childbirth mandate对女性就业人数和工资的影响很感兴趣。。Gruber就将这23个州作为treatment组,另27个州作为control组。比较两组女性工资和就业人数变化的差别(diff-in-diff)。由于这23个州可能同那27个州也有不同,他又加了一个diff,比较这两组男性-女性工资差别的变化,(diff-in-diff-in-diff)。他的结论是由于childbirth mandate,女性工资下降了4.3%,但是就业人数没有变化,因此childbirth mandate导致的成本的增加基本上由女性工人承担。
另外一项很有名的使用diff-in-diff方法的研究是2001年John Donahue和Steve Levitt研究堕胎政策对犯罪率影响的论文。美国的犯罪率从90年代开始大幅度下降,具体原因我们现在也不是很清楚。Donahue和Levitt注意到七十年代美国开始实行堕胎合法化,他们将这两者联系起来,假设是堕胎堕掉的是父母不想要的孩子。如果堕胎非法,这些孩子出生,这些孩子父母对他们的关心会相对较少,他们选择犯罪的可能性会更大。因此70年代的堕胎合法化导致了90年代的犯罪率降低。但是很明显还有很多其他因素在70,80年代变化影响犯罪率。因此他们采用diff-in-diff的方法。1970年美国有5个州率先将堕胎合法化,其余的州在1973年Roe vs. Wade之后才将堕胎合法化。因此他们使用diff-in-diff的方法来分析这个政策变化对90年代犯罪率变化的影响。他们发现这5个州的犯罪率率先下降,再加上一些其他分析,结论是美国犯罪率下降的很大一个原因是堕胎的合法化。
这可能是Steve Levitt最有名的文章,在美国由于对堕胎的争论,格外引人注目。他获得John Bates Clark Medal这篇文章起了很大的作用。但是2005年Foote和Goetz复制他们的研究却得不到他们的结果。在检查他们的程序后发现有错误。因此他们文章里有的结果其实是错的。现在一般的看法是数据并不能证明堕胎合法化降低了犯罪率。原因在于最早堕胎合法化的那5个州Hawaii,Washington,Alaska,California和New York同其他的州有很大的不同。80年代crack cocaine吸毒有关的犯罪最厉害的也主要就是这几个自由派的州。随着对crack cocaine的控制,90年代这几个州犯罪率下降也最大。因此这5个州犯罪率率先下将同堕胎合法化无关。
这个例子也说明diff-in-diff的方法只是quasi-experiment。它的结果要有说服力,我们必须要说服读者各个州采用不同的政策是由于随机因素,同我们想研究的对象没有关系。在很多情况下,要想做到这一点并不容易。因此,diff-in-diff方法的结果并不总是让人信服。
Instrumental Variable
假设我们想研究A和B的关系。从统计学上讲,endogeneity的问题是说,存在我们不能直接观测到的C,同时和A,B相关。比如研究教育和收入的关系,能力高的人教育程度和收入都高,因此直接将教育和收入作回归结果会有bias。如果我们能发现另一个变量D可以导致教育程度变化,但是不直接影响收入,那么由D导致的教育程度变化就像是个randomized experiment,我们可以这个教育程度变化来估计教育和收入的关系。这种方法叫做Instrumental Variable Estimation,另外的变量D叫做instrument。
用IV方法最有名的文章我觉得是Joshua Angrist和Alan Krueger 1991年估计收入和教育关系的文章。他们的instrument是一个人的出生时间(他们用的数据是出生的季度)。出生在哪个月份好像明显是随机的,同一个人的能力和家庭背景没有任何关系。因此它满足IV的第一个条件。而出生月份却影响美国学生的受教育时间长短。美国一般的校区都规定如果一个孩子在这一年会满6岁,他就必须在这一年秋天入学。而根据校区不同,如果一个学生满16岁或17岁,他就可以选择离开学校,不再接受教育。假设有两个学生,一个出生在1月1日,一个出生在12月31日。因此入学时,一个人是6岁零8个月,一个是5岁零8个月。两个人都不爱学习,想尽快离开校园逃出牢笼,因此一满16岁就会退学。因此第一个人实际接受教育的时间是9年零4个月,第二个人实际接受教育的时间是10年零4个月。第二个人由于美国的制度被迫多上了一年学。Angrist和Krueger使用美国人口普查的数据发现一个人的教育程度确实同出生季度有关。在第一季度出生的人比在其他季度出生的人平均教育时间稍短。因此出生季度即同能力无关,又可以影响教育,满足这两个条件,是个很好的instrument。他们的结果发现,IV的估计结果和普通的回归估计结果类似,因此普通回归的bias并不大。
这篇文章不仅在劳动经济学,而且在整个应用经济学经验研究的影响都很大。他们的design确实非常巧妙,我今天写这篇文章时想起来都觉得赞叹。在它之前应用IV的文章,大多数只是断定某些变量是好的instrument,满足那两个条件。它们即使有一些统计学的检验,也不是很让人信服。而Angrist和Krueger的文章有一个很好的故事,让人听了以后就觉得很有道理,觉得那两个条件的满足是最自然不过的。这篇文章也成为IV研究的典范,影响极大。但是后来的研究表明,这篇文章其实也存在问题。
一个是weak instrument。也就是说虽然出生季度同入学时间有关,但关系其实并不是很紧密。因此,使用出生季度带进了很多的noise,standard error变得很大,估计的结果并不可靠。而且我们真正考虑一下,这篇文章实际估计的是16,17岁不爱学习的人,强迫他们在学校多待一年对他们收入的影响。这个结果对其他人群,其他教育(比如大学教育,博士教育)的适用性很成问题。第二,最近Kasey Buckles和Daniel Hungerman有一篇文章发现美国在第一季度出生的孩子的母亲更可能是teenager,单身或者高中没有毕业。他们对此的解释是收入高,受教育程度高的女性更可能避免在冬天生育(不过我觉得他们没给出很让人信服的解释为什么这会发生)。因此出生时间其实同家庭背景有关,也就对收入有影响。因此并不是valid instrument。
下面再举几个使用instrumental variable估计的例子。
经济学家一般都相信竞争会提高效率。应用到教育领域,就是如果一个校区有好几个学校竞争的话,校长,老师会更卖力。不然,如果学校质量下降,家长会用脚投票,将孩子转到别的学校。学校老师的生计就会有问题。相反如果学校处于垄断地位,家长没有太多其它的选择,老师就不会太卖力,学生的成绩会低。但是如果我们直接将一个校区内的学校数和学生成绩作回归就会有endogeneity的问题。比如一个校区内好多种族,各个种族可能想有自己单独的学校。而多种族本身对学习成绩可能就有影响。另一种可能,假设校区里的一个学校特别成功,校区可能会让这个学校兼并其他学校来提高其他学校的质量,因此我们可能观测到竞争减少,成绩增加。但是这并不表明竞争本身对成绩有害。Carolyn Hoxby发现美国校区的划定同河流有关,由于美国早期交通不发达,学生渡大河上学有困难。因此河流多的地区,校区就小,相应的学校就少,学生的选择少,竞争就少。而一个地区的河流数量好像同学生的成绩没有什么关系。因此河流数量是个valid instrument。Hoxby的结果发现增加学校的竞争确实能提高学生成绩。(Jesse Rothstein后来认为Hoxby在河流数量的具体定义上是data mining,他们之间的争论,感兴趣的话可以找2007年的AER看一下。)
Edward Miguel, Shanker Satyanath和Ernest Sergenti想研究经济增长是否降低内战发生的概率。他们研究对象是撒哈拉南部的40个国家。由于endogeneity的问题,他们使用降雨量作为instrument。他们的结果是经济萎缩5%,内战爆发的概率会增加50%。
Daron Acemoglu,Simon Johnson和James Robinson研究政治制度对经济增长的影响。我前面已经解释了,普通的方法会有endogeneity的问题。他们用殖民时期欧洲人死亡率作为政治制度的instrument。他们的理由是如果这个地区死亡率低,欧洲人就会大幅度移民,更可能把他们原来的制度搬到新大陆。如果死亡率高,很少欧洲移民,欧洲人建立起来的更会是种掠夺性的制度,不利于长期经济发展。现实明显的例子,温带的殖民地,死亡率低,象美国,加拿大,澳大利亚,新西兰经济发达。加勒比海地区,非洲传染病多,死亡率高经济落后。他们数据分析的结果发现政治制度确实对经济增长影响很大。
使用instrumental variable方法的关键是让读者信服instrument同解释变量相关,又确实同被解释变量无关。当然有一些统计学的检验可以做帮助,但是通过这些检验并不意味着这些instrument确实是valid的。就我举得后几个例子,如果仔细想一下,我们就会觉得这些instrument同被解释变量有关的可能性不大,但是并不能被排除。因此使用instrumental variable论文结果的可靠性同randomized experiment的理想标准相比还是有不小的差距。
Regression Discontinuity
Regression Discontinuity这个方法是在1960年被统计学家Thistlethwaite和Campbell发明的。到90年代末才开始被经济学家广泛使用。现在已经是reduced-form那一派工具箱里最常用的方法之一。
经济学里比较早使用Regression Discontinuity的是Wilbert Van der Klaauw 2002年International Economic Review的文章。凭直觉,如果大学(比如纽约大学)给予新生奖学金,这个新生选择纽约大学的可能性会大大增加。但是现实中,成绩好,能力高的学生更有可能获得纽约大学的奖学金,但是这样的学生也更可能获得其它大学比如康奈尔大学的奖学金,因此简单的回归分析可能会显示获得奖学金同学校选择无关,存在endogeneity的问题。解决这个问题理想方法是我们随机选择一批学生给予奖学金,然后观测他们的学校选择,可惜经济学家申请不下这么多研究经费。Van der Klaauw注意到纽约大学发出奖学金有个公式,加权计算学生的各项特征比如GPA,SAT,父母收入等等。如果按照这个公式计算出的分数大于320分,学生会获得奖学金,319分的就得不到。对于得分319分和320分的学生来说,他们各方面的平均特征应该是近乎相同的,因此只要其他大学不是使用同纽约大学完全相同的公式,这些学生被其他大学录取或获得奖学金的可能性也应该近乎相同。因此比较这两组学生的选择来得到奖学金对学生选择的影响,就解决了endogeneity的问题。换一个角度来说,学生的考试成绩比如SAT并不是完全是由学生的能力决定,是有噪音的,其他因素也类似,因此每个学生按照公式计算出来的分数也是有噪音的。319分和320分的学生各方面非常相似,320分的学生获得奖学金,主要可以看作是噪音的影响。因此这些噪音可以看作是自然在作的randomized experiment,将特征非常类似的人分为treatment组和control组。因此我们比较这两组的结果不同,就可以得到奖学金对学生选择的影响。Van der Klaauw的结果是奖学金增加10%,学生选择纽约大学的可能性增加8.6%。
就解决endogeneity的问题来说,我觉得regression discontinuity要比diff-in-diff和instrumental variable更有说服力,但是它也有一些局限性。就上面这个例子来说,这个研究的结果测量的其实是奖学金对320分左右学生学校选择的影响。这个结果对其他学生选择的适用度不是很明确。
再举两个例子。
Sandra Black研究的问题是一个好的公立学校对家长有多重要。换成经济学的术语来说是是hedonics,相对于一个差的公立学校来说,一个好的公立学校给家长增加的效用可以折算成多少钱。她的方法是利用地理上的discontinuity。假设有两个邻近的校区,一个校区的公立学校质量高,另一个质量低。那么在校区边界的非常类似的两座房子(同样的房间数,类似的面积等等),一座在校区A,一个在校区B,它们其他的环境因素应该也非常相似,比如犯罪率,买东西的方便程度等等。因此它们的主要差异就在于它们处于不同的校区,由此导致这两所房屋价格的不同。因此比较两座房子价格的差异,就可以给出好的公立学校给家长效用增加的金钱换算。Black使用马萨诸塞州的数据,结果是小学成绩增加5%,所在校区的房屋价格增加2.1%,在1999年的时候大致是4000美元。
Sandra Black的方法确实是非常巧妙,但是如果我们仔细考虑,她的方法有个隐含假设,就是说校区界线的划定完全是随机的。为了解决可能的边界endogeneity问题,如果校区边界是公园,高尔夫球场,河流等等,她就不使用这些数据。但是如果加上这些数据就得不到她的结果,为什么只删除这些数据,其他有可能导致边界endogeneous的数据为什么不擅出呢?因此有人觉得她的结果有data mining的嫌疑。
前面我已经解释了,简单的回归研究班级人数和学生成绩之间的关系有endogeneity的问题。一种解决办法是randomized experiment。1985年美国田纳西州花费1千2百万美元将7000名从幼儿园到小学3年级的学生随机分配到15个人或24个人的班级里,比较他们的成绩。实验结论是小班确实能够提高学生成绩。另一种解决方法就是regression discountinuity。Joshua Angrist和Victor Lavy注意到以色列小学的班级人数使用Maimonides’ Rule。如果学校一个年级的人数少于40人,那么就只有一个班,由一个老师来教。如果超过40人比如是41人,就分为两个班,每个班20或21 人。因此如果我们假设每年注册的学生数量是随机的话,在40,41 这个范围左右,班级人数的确定基本上也是随机的。这就像是自然在做的randomized experiment。如果我们比较年级40和41人学生的成绩,就可以得出班级人数对成绩的影响。他们的结果是班级人数减少10人,全班平均成绩增加0.75分(百分制)。
Angrist和Lavy的方法非常巧妙,但是它有一个隐含假设,就是39人40人的班级学生的家长不会选择转学到小班级的学校,比如私立学校。如果是这样的话,我们现实中观测到的39人,40人班级学生的家长对孩子教育不是太关心,或者财力不够。这样的话,40人和41人的学校的学生会有很大的不同。我们有新的endogeneity的问题,这个design和真正的randomized experiment还有差异。Miguel Urquiola AND Eric Verhoogen使用智利的数据发现有钱人倾向于把孩子送到班级小的学校。因此Angrist和Lavy的结果很可能高估了班级人数对学生成绩的影响。
Natural Experiment
Natural Experiment这个词用法很多。一些文章将所有的reduced-form的方法都叫做natural experiment。这一篇我就讲一下其他的被称为natural experiment的各类研究。下一篇再说randomized experiment。
一类被称作natural experiment的研究是比较政策推出前后行为的变化。1966年秋,罗马尼亚总统齐奥塞斯库下令禁止堕胎。Cristian Pop-Elechesy利用这一点比较1967年1月-10月出生的人后来的教育,收入以及犯罪情况。这段时间的前一部分出生的人的母亲怀孕在禁令颁布之前,应该有机会堕胎。后一段时间的人的母亲应该没有机会堕胎。由于只有10个月,其他因素应该变化不大,因此Pop-Elechesy把这些人后来教育收入的变化归因于堕胎政策的变化。这种前期和后期的比较有点像control组和treatment组。也有点类似于regression discontinuity,不过没有regression discontinuity来的有说服力。她的结果发现1967年后期出生的人后来的教育程度和收入要比前期出生的人要高,而犯罪率要低。她的解释是堕胎是当时罗马尼亚的主要避孕手段,而选择堕胎的主要是教育程度高,收入高的女性。1966年秋天的堕胎禁令增加的生育也主要集中在这个阶层的女性。因此这些多出来的孩子要比普通人的教育程度收入高。但是她发现如果将母亲的教育程度和收入加入回归方程,作为控制变量,结果显示1967年后期出生的人结果要差。换句话说,如果母亲的收入,教育程度相同,那么1967年后期出生的人的教育程度,收入情况要低于,犯罪率要高于1967年前期出生的人。她的解释是这是由于教育资源的限制,当然我前面提到的Donahue-Levitt的机制可能也在起作用。
Cristian Pop-Elechesy的这篇论文我觉得是在这一类研究中比较好的,但是我们考虑一下会发现也有一些问题。我们不能排除可能有其他因素变化导致前后两段时间出生的人的结果不同,因此如果她能加几个同罗马尼亚类似的国家,比如匈牙利,保加利亚作为对比组,也就是使用diff-in-diff的方法,说服力会更高。当然,我前面讲了即使是diff-in-diff我们可能还是会有一些疑问,为什么罗马尼亚选择了不同于其他国家的堕胎政策呢?导致罗马尼亚选择不同政策的因素是不是对教育情况收入情况也有影响呢?这些问题有多大影响要视具体的研究对象而定。
另一类被称为natural experiment的研究是由政府组织进行的实验。有名的例子是美国的negative income tax实验。当时美国的福利政策是设定一个贫困线,保证家庭的收入不低于这个水平,如果家庭的收入低于这个线,政府发放福利补足这之间的差额。这个制度的缺点在于它其实是鼓励低收入的人不工作。打个比方,假设贫困线是每周300美元。一个人的工资是10美元。假设他不工作的话,政府发放300美元救济,假设他工作30个小时,收入是300美元,救济是0,净收入还是300美元。因此对他来说理性的选择很可能是不工作,只领政府救济。对整个社会来说,这明显是没有效率的,经济学里叫dead-weight loss。
但是对于贫困人口,社会确实有义务帮助。为了解决这个问题,Milton Friedman提出了negative income tax的方案。比如15000美元以上的收入需要交收入税,但是15000美元以下的收入却可以得到政府相应的补贴(也就是负的所得税)。Friedman的方案是50%的负税率。一个家庭的收入如果是5000美元,它收到的补贴是0.5*(15000-5000)=5000,净收入是10000美元。收入如果是10000美元,补贴就会是2500美元,净收入是12500美元。这样就可以减轻dead-weight loss。政府既可以帮助贫苦人口,又不会形成养懒人的情况。这个方案看起来很有道理,但是真正实行起来效果如何不得而知。美国60年代末到70年代进行了4次实验。一共选择了8000多个家庭使用负所得税的方法,测量他们劳动供给的变化。但是这些实验的问题在于selection bias。也就是说政府没有权力强迫人加入实验。假设每个家庭都是理性的,他们计算加入实验和不加入实验的效用,如果每个家庭的效用函数不同,只有获得特别利益的家庭才会加入负所得税的实验。因此参加实验的家庭同普通的家庭有很大的不同,他们之间的比较并不能告诉我们这个制度推行到整个社会的结果会怎么样。换句话说,这种实验的问题在于它并不是真正randomized的。James Heckman在1979年提出解决这种问题的方法是用经济理论直接model家庭加入和不加入实验的效用和他们的决定。他的方法属于我后面要提到的structural那一派,他也因此获得诺贝尔经济学奖。他的方法的问题和大多数structural派的研究一样,在于对变量的概率分布需要作假设。一般的研究都选择正态分布,但是其实说不出任何道理。因此结果的可靠性很让人怀疑。Heckman在过去20年的研究方向就是希望找到non-parametric的估计方法。而Reduced-form这一派则找同randomized experiment接近的数据或者是做真正的randomized experiment。
有时一些政策或规定的本来目的并不是为了做实验,但却产生类似于随机实验的结果,基于这些政策规定的研究也被称作natural experiments。美国1970年-1973年越南战争服兵役采用抽签的政策。每个在服役年龄段的男性分配给一个号码,被抽到的就需要服兵役。但是高中生属于免服兵役的范围。1971年以前本科生也可以免服兵役。因此一个人如果不想到越南,他的号码又被抽到的话,他就有格外的动力呆在学校里接受教育。我前面说了,直接作回归研究收入和教育的关系有endogeneity的问题。影响教育选择的因素也影响收入。但是这里教育时间的变化是由兵役号码决定,而兵役号码很明显和收入无关。因此这同randomized experiments非常相似。通过比较被抽中的和未被抽中人的收入我们可以得出教育对收入的影响,并且克服了endogeneity的问题。Angrist和Krueger使用这个方法发现多受一年教育,收入增加6.6%。
Angrist和Krueger方法的缺点在于它有selection bias。被抽中的人有两个选择,或者在学校多待一年,或者到越南服兵役。选择留在学校里的人可能是更怕死,可能是因为和平主义的哲学,可能是因为对他们来说教育的回报相对较高。因此这里教育程度的增加并不是真正的randomized experiments。他们同整个人群并不完全相同,从他们得出的结果并不一定在整个人群适用。
最后举一个例子是Joshua Angrist最近的论文。美国教育制度改革争论的焦点问题之一是charter school。这一类学校的资金来源于政府,但是有较大的独立性。直接将学生成绩和学校类型作回归有endogeneity的问题,因为选择进入charter school学校的学生和家长可能和其他学生有很大的不同。在波士顿地区,近些年由于charter school学生成绩好,供不应求,申请数量大于学校的能力,学校使用抽签的方法决定录取名单。对于申请charter school的学生来说,最终是否被录取就是个randomized experiment。比较被录取和申请但没被录取学生后来的成绩就避免了endogeneity的问题。Joshua D. Angrist, Susan M. Dynarski, Thomas J. Kane, Parag A. Pathak, Christopher R. Walters他们使用波士顿KIPP charter school的数据发现在charter school就读同其他的公立学校相比,学生的数学成绩可以增加0.35个标准差,英语成绩可以增加0.12个标准差。因此charter school可以很大的提高学生的成绩。
Dracula 发表于 2013-3-11 20:28 static/image/common/back.gif
Natural Experiment
Natural Experiment这个词用法很多。一些文章将所有的reduced-form的方法都叫做natura ...
写得太好了,很清晰明了呀,比看书快多了,一口气看完了。怎么木有了?还没说Structural 的方法以及例子呀? 好文{:237:}{:237:}{:237:} 做过controlled field experiments的飘过:D blackjack111 发表于 2013-3-12 06:51 static/image/common/back.gif
写得太好了,很清晰明了呀,比看书快多了,一口气看完了。怎么木有了?还没说Structural 的方法以及例子 ...
写Structural Econometrics 那一部分的难处在于由于它跟经济理论结合的很紧,很难做到通俗易懂,因此当时一直犹豫着没写,后来就搁下了。下个星期我可能会把这章补上。 欢迎欢迎。。热烈欢迎~ Dracula 发表于 2013-3-12 11:21 static/image/common/back.gif
写Structural Econometrics 那一部分的难处在于由于它跟经济理论结合的很紧,很难做到通俗易懂,因此当时 ...
这个的科普有点难,期待zhong {:237:}{:237:}
期待 Dracula 发表于 2013-3-11 20:25 static/image/common/back.gif
Instrumental Variable
假设我们想研究A和B的关系。从统计学上讲,endogeneity的问题是说,存在我们不能 ...
读到这里有点读不动了,不过对前文提到的“女性选择在冬天生育”以及“河流影响校区大小”的案例很感兴趣,咱们中国存在这种制度设计导致社会生活受影响的实例吗?
应该很多。
这次两会,弓虽提到解决农民和市民收入差距的办法是要让农村的农民人更少,这个概念提出,原因是中国的地理状态和政治制度决定了农村人受更少的教育,不发达地区的学区也较小,而不发达地区所面临的竞争性更小,缺乏竞争的原因是政治制度决定的。因为这些学区没有淘汰的机制,导致受过大学教育的学生普遍不努力,他们学习的积极性不如高中生,影响力小,下一年收到优秀生和招揽到优秀教师的比例都不会发生根本性转变。我认为学生学习成绩好坏和竞争性有直接关联的,这种竞争性主要体现在两个阶段,高考和考研阶段。
高考是一种手段,农民为了摆脱地域限制,需要更努力的学习,获得好成绩,去好的城市发展。成绩好的学生普遍的意愿是考更好城市的好大学,这是中国的社会现实。这里面的随机的变量很少,是社会制度决定的。因为中国的社会制度导致资源向大城市集中。
而考研的随机性就大多了,特别是优秀大学里的学生,并不是高考时成绩好的学生一定会考研,因为本科毕业以后就可以留在好城市发展,这种对于突破地域限制自身发展的竞争意愿降低了,因此,考研只是个人的兴趣选择。
一个制度设计上的问题:大学毕业以后,大学生的户口迁回故乡,还是农民的性质。如果统计农民人口,会发现真正务农的人很难估算,如果统计市民人口,也会发现市民的人口和实际对市民福利的支出很难统计。中国的制度存在多重的复杂的局面。
新一届在施政之前,极有可能再来一次人口普查,然后重新优化设计社会制度。
学习了前面一些章节,理解的不太深,插一些话,参与讨论,不成熟和荒谬的地方,请指导~{:191:} 本帖最后由 二郎神 于 2013-3-17 20:23 编辑
由于美国是联邦制,许多制度各个州都不一样,这就给了经济学家使用Diff-in-Diff方法提供了很大的方便。这方面比较早论文还包括Jonathan Gruber研究childbirth mandate的文章。1970年以前,美国政府不要求雇主提供的医疗保险包括妇女生育。在70年代,23个州要求雇主提供的医疗保险包括妇女生育,1978年联邦法律通过所有的州都要求childbirth mandate。额外的保险增加了雇主雇佣女性的成本,因此经济学家对childbirth mandate对女性就业人数和工资的影响很感兴趣。。Gruber就将这23个州作为treatment组,另27个州作为control组。比较两组女性工资和就业人数变化的差别(diff-in-diff)。由于这23个州可能同那27个州也有不同,他又加了一个diff,比较这两组男性-女性工资差别的变化,(diff-in-diff-in-diff)。他的结论是由于childbirth mandate,女性工资下降了4.3%,但是就业人数没有变化,因此childbirth mandate导致的成本的增加基本上由女性工人承担。
childbirth mandate这个制度,是鼓励女性生产,这个制度可能是马尔可夫过程中的一个奖惩系统,如果不生孩子,公司也要给育龄女性交生育险,如果生孩子,领到生育险的女性会存在一部分,公司交的这些生育险具有真正的社会效用,但大部分费用是保险公司拿去了。这是通过增加雇主的负担来鼓励女性生育。如果不给女性交这个险,不交险的州,女性生产的意愿可能更低,虽然雇主支出更少,保险公司收入也跟着减少了,可失业率可能会增加,因为女性为了保障自我,完全可以流动到另一个州去工作。这个流动的过程,就是失业率发生的阶段。
这个制度对于女性来说,更加公平,联邦政府的收入不受影响,保险公司的效益则增加很多。从风险控制理论来讲,这个风险是很小的,制度会造成多赢的局面。雇主虽然支出增加,但是人员流动性变小,有利于公司的生产经营,保险公司收益增加,联邦政府达到鼓励人民生育的目的。
写的太棒了 老师最近让写一篇关于causal analysis这个endogeneity的文章,您的文章比我们老师讲的还清晰的多!
感谢!{:191:}
页:
[1]