内容摘要:
关键词:教育收益;终身收入
作者简介:
内容提要:由于终身收入难以获得,在实证分析中以当期收入替代终身收入是研究领域的普遍做法,有研究表明这种替代会造成生命周期偏误,在估计教育收益率的过程中,生命周期偏误可能是比内生性偏误更为严重的问题。本研究将对以当期收入估计的中国教育收益率进行元分析,对其中可能存在的生命周期偏误进行评估,对教育收益率的长期变动趋势进行再认识。结果表明,现有研究得到的我国教育收益率增长趋势,可能有很大一部分要归因于人口老龄化导致的样本平均年龄增长。
关 键 词:教育收益 率生命周期偏误 终身收入 元分析 发表偏误
作者简介:于洪霞,北京师范大学教育学部教育管理学院,电子信箱:yuhongxia@bnu.edu.cn(北京 100875)。
一、引言
教育收益率对于认识教育投资规模的适宜性、收入分配公平性等问题都具有重要的意义,自从Schultz(1961)、Becker(1962)、Mincer(1974)以来,教育收益率一直是研究领域关注的热点问题。明瑟方程是研究教育收益率使用最广泛的模型,由于明瑟方程OLS回归存在一些内生性问题,可能会造成估计结果有偏,很多研究致力于克服这种内生性问题,以得到更准确的估计结果。为了克服遗漏变量、测量误差、样本自选择等造成的内生性问题,研究领域采用的估计方法有固定效应法(双胞胎数据)、工具变量法(以学费、义务教育法定年限等变化作为工具变量)、两阶段最小二乘法,代理变量法(如以智商水平代理潜在能力)、Heckman选择模型、断点回归法、得分倾向匹配法等。①由于劳动者整个生命周期的收入数据难以获得,终身收入就难以计算,以较易获得的当期收入代替终身收入,是研究领域的普遍做法。研究中国教育收益率的文献有很多②,但大多是以当期收入来进行的。然而,以当期收入代替终身收入的合理性依赖于一些很严格的假设(Heckman, et al.,2006,2008),而在现实中这些假设是很难满足的。有研究表明这种替代会造成生命周期偏误,Bhuller, et al.(2011)使用挪威几乎能够涵盖劳动者整个生命周期数据进行的研究指出,在估计教育收益率的过程中,生命周期偏误可能是比内生性偏误更严重的问题。截至目前,关于生命周期偏误的研究基本是使用发达国家的数据来进行,中国作为一个处于转型时期的发展中大国,其规律是否具有相似性,还是一个难以确定的问题。本研究将对以当期收入估计的中国教育收益率进行元分析,对其中可能存在的生命周期偏误进行评估,为相关研究领域增添来自中国的证据。此外,很多研究表明中国教育收益率存在增长趋势,而与此同时中国正面临人口老龄化趋势,本研究将对我国样本年龄情况与教育收益率估计结果的关系进行分析,对中国教育收益率的长期变动趋势进行再认识。估计结果表明,现有研究得到的我国教育收益率的变化情况,有接近30%的变化要归因于样本平均年龄的变化,也就是说,现有研究可能高估了我国教育收益率的增长幅度,大约有30%的教育收益率增长幅度可能要归因于人口年龄结构的变化。在我国人口老龄化的趋势下,样本年龄结构在不断变化,在分析我国教育收益率及教育收益率增长趋势时,生命周期偏误不可忽视。
二、文献回顾
Bjrklund(1993)使用瑞士1951-1989年的长期面板数据对当期收入和终身收入的关系进行了分析,指出在计量分析中以当期收入替代终身收入存在潜在的问题。Haider & Solon(2006)使用扩展的变量误差模型在理论上证明,如果当期收入与终身收入的关系在整个生命周期内存在变动,使用当期收入代替终身收入进行估计就会产生生命周期偏误,并使用美国1951-1991年的长期面板数据证实了这种生命周期偏误的存在。使用不同国家的长期面板数据对扩展的变量误差模型进行了拓展的研究有:Bhlmark & Lindquist(2006)使用瑞典数据;Brenner(2010)使用德国数据;Nilsen, et al.(2010)使用挪威数据等。
Bhuller, et al.(2011)使用挪威1967-2008年数据的研究指出,在计算教育收益率的过程中,生命周期偏误可能是比内生性偏误更严重的问题。该研究对使用当期收入和终身收入估计的教育收益率进行对比分析,除了使用OLS估计方法外,还使用了另外三种估计方法以克服内生性的影响,③估计结果都验证了生命周期偏误的存在,也就是说使用现有的多种估计方法,都难以避免生命周期偏误的产生。Brunello, et al.(2012)应用欧洲9个国家长期面板数据进行的研究,对于收入水平的衡量,既使用了终身收入,也使用了首次就业收入和当前收入(对于退休者是退休时的收入),如果不存在生命周期偏误,以不同收入衡量方式估计教育收益率,估计结果应该是相近的,但是结果显示估计系数值有较大差异,说明生命周期偏误是存在的。该研究还在普通明瑟方程的OLS估计中加入了教育年限与工作经验年限的交叉项,如果不存在生命周期偏误,交叉项的估计系数应该是不显著的,但是估计结果显示交叉项显著为负。说明使用当期收入估计教育收益率在人生的不同时期结果会有差异,而以终身收入计算的教育收益率应该是稳定的,两者的差异反映了生命周期偏误的存在。
由于人口的年龄结构是在不断变化的,导致样本的年龄结构也会发生变化,在这种情况下,教育收益率的变动趋势分析可能会受到生命周期偏误的挑战。Bhuller, et al.(2011)的研究中,当使用16—64岁的样本进行回归时,教育收益率在20世纪80年代到90年代呈现出明显的上升趋势,当使用与终身收入估计结果最接近的32—33岁样本进行估计时,这种上升趋势消失了,该研究指出很多使用发达国家数据所获得的教育收益率增长趋势,可能只是生命周期偏误所造成的假象。使用当期数据所估计的中国教育收益率在20世纪80年代以后同样表现出了明显上升趋势,这些研究无一例外都是使用当期收入代替终身收入,且大多得到了教育收益率具有上升趋势的结论。④根据现有研究得到的规律,样本平均年龄越高,教育收益率的估计结果可能越高。而随着我国人口的老龄化趋势,人口和劳动者的平均年龄在持续上升。在这种情况下,教育收益率上升的趋势至少有一部分可能是由人口平均年龄的上升造成的,也就是说现有研究可能高估了中国教育收益率上升的速度。高估的程度如何是需要研究领域进一步探索的问题,本研究将使用元分析方法尝试对这一问题进行分析。
研究领域有若干关于教育收益率的元分析文献。Ashenfelter, et al.(1999)使用9个国家的27篇文献对教育收益率估计结果进行了元分析,分析了不同地区、不同时期、不同方法所估计的教育收益率的差异情况。在控制了发表偏误以后,不同估计方法所获得的估计结果差异很小。工具变量法和双胞胎数据固定影响法的发表偏误显著,而OLS估计的发表偏误不显著。基于OLS估计相对于其他估计方法在发表偏误方面的优势,本研究的元分析将以OLS回归的估计结果为主来进行。Liu&Zhang(2012)对中国教育收益率相关研究进行了元分析,旨在确定不同研究关于教育收益率估计结果的差异,在多大程度上可以归结为估计方法、样本总体、数据收集方式、变量控制情况、劳动力市场情况等方面的差异。这些关于教育收益率元分析的文献,都没有分析教育收益率估计结果与样本年龄结构的关系。Bhuller, et al.(2011)对教育收益率估计结果和样本平均年龄的关系进行了简单元分析,得出了教育收益率与样本平均年龄正相关的结论,但是该研究存在以下问题:一是只进行了简单的一元线性回归分析,没有对其他可能的影响因素进行控制,没有对发表偏误等进行分析,更没有对样本年龄结构变化情况下教育收益率的时间变化趋势进行深入分析;二是该元分析在数据采集方面不是严格按照元分析标准来进行,样本搜集范围仅局限于4篇教育收益率相关文献综述提及到的文章,元分析仅使用了来自17篇文献的17个样本,文献使用的数据主要来自欧美国家,在样本量及样本的代表性方面,都难以为认识中国的情况提供有力参考。综上所述,对以当期收入估计的中国教育收益率进行元分析,既可以为认识中国的相关情况提供依据,也可以通过详细的计量分析为相关研究领域增添新的认识。
目前,对生命周期偏误的相关研究,主要使用美国和欧洲若干国家的几乎能够涵盖劳动者整个生命周期的数据进行,得到的一些规律对我国虽然有参考价值,但是适用性有待考察。据我们所知,我国当前还缺乏能够计算终身收入的长期面板数据。在短期内获得终身收入的一个方法是使用回顾数据,但是使用回顾数据可能受到两方面的挑战:一是让被调查者回顾整个生命周期的收入可能会受到测量误差的挑战;二是在社会经济与收入水平剧烈变化的情况下,得到的终身收入可能难以反映社会的现实情况。因此,探索在终身收入数据难以获得的情况下,如何评估生命周期偏误并尽力克服数据局限减缓生命周期偏误将是非常重要的。本文使用的元分析方法,一方面可以帮助我们评估现有研究中可能存在的生命周期偏误情况,另一方面也可以为相关研究领域评估生命周期偏误提供方法上的参考。
三、数据介绍与模型设定
(一)数据介绍
本文元分析所使用的中国教育收益率相关文献包括中文文献和英文文献两部分。中文文献搜索的数据库主要有中国期刊网(CNKI)、万方数据检索系统、中国科技期刊数据库(维普数据库)及互联网等。英文文献搜索的数据库包括ECONLIT、Elsevier Science Direct、JSTOR、PROQUST、SpringerLink、EBSCO等,此外,也使用GOOGLE搜索引擎进行了搜索。中文文献搜集分别以“教育收益率”和“教育回报率”为关键词在期刊全文中进行搜索。英文文献搜集分别以return to education in China和return to schooling in China为关键词进行搜索。文献搜索的时间跨度是1993年1月到2013年1月,文献的进一步筛选按照以下规则进行:(1)以微观数据进行的中国教育收益率实证研究;(2)估计模型以明瑟方程为基础;(3)以受教育年限度量教育水平,样本包含各级各类教育水平,专门研究高等教育、职业教育等特定教育水平或类型的文献被排除在外;(4)汇报了相应估计样本的平均年龄,或者能够计算出样本平均年龄。⑤分析中国教育收益率的实证研究很多,但是很多没有汇报样本平均年龄,在汇报了样本平均年龄的部分文献中,也只汇报了部分回归的样本平均年龄。比如只汇报了总体样本的平均年龄,虽然进行了划分性别、地区等的教育收益率估计,但是没有汇报划分性别、地区等的样本平均年龄,这限制了本文元分析的样本数量。
元分析的文献情况和样本情况如表l所示,最终获得满足本研究元分析要求的文献有9篇,其中中文文献1篇,英文文献8篇;已发表论文7篇,工作论文2篇;使用多省份数据进行研究的文献8篇,使用单个省份数据进行研究的文献1篇;满足元分析要求的最早研究出现在1999年。9篇文献共提供了54个可供元分析的样本。⑥在某些文献中,对同一个样本使用了多种方法进行回归或控制了不同变量进行回归,为了保证样本总体的一致性和分析结果的有效性,本研究将对相同样本只取一个估计结果。⑦由于OLS回归在两方面的优势,本研究选取了OLS回归结果:一是虽然各文献使用的估计方法有所差异,但是基本都使用了OLS估计方法;⑧二是根据现有研究的分析结果,教育收益率OLS回归的发表偏误不显著,而工具变量法和双胞胎数据固定影响法的发表偏误是显著的(Ashenfelter, et al,1999)。在某篇文献的OLS回归中,如果对于同一个样本控制了不同变量进行了多个回归,本研究则只取其中一个计量模型的估计结果进入元分析,并保证从同一篇文献中所取得的元分析数据是控制了相同变量的估计结果。如果文献中按照不同的标准划分子样本进行了分别回归,本研究将选取其作为一个独立样本,比如性别划分、背景划分等。文献的时间跨度从1999年到2012年,文献使用样本的时间跨度从1988年到2010年。9篇文献共使用了6种不同来源和19个独立年份的数据,不同来源不同年份的数据其样本的平均年龄情况会有所差异,这为本研究识别教育收益率与样本平均年龄的关系提供了更大的机会。
元分析数据样本的统计描述情况如表2所示。教育收益率的均值为6.61%,最小值为1.41%,最大值为13.20%。教育收益率估计系数的均值为0.06,最小值为0.014,最大值为0.124,估计系数的标准差在0.001到0.009之间,平均值为0.004。有96.3%的教育收益率估计系数是以1%的显著性水平显著的。样本平均年龄的均值为37.50岁,最低值为29.68岁,最高值为45.29岁,最高年龄与最低年龄之间相差15.61岁,可见不同样本的样本平均年龄差距较大。样本数据的最早年份为1988年,最晚年份为2010年,时间跨度为23年。各回归的平均样本量在1万以上,最小样本量也在1千以上,最大样本量达到了30万以上。有68.5%的元分析样本为已经发表的估计结果。
样本平均年龄、时间趋势和教育收益率三者的关系如图1所示,上方的象限展示了样本平均年龄与样本年份的关系,随着时间的推移样本的平均年龄存在上升趋势;下方的左侧象限展示了教育收益率与样本年份的关系,随着时间的推移教育收益率存在上升趋势;下方的右侧象限展示了教育收益率与样本平均年龄的关系,样本的平均年龄越高,教育收益率的估计结果越高。也就是说教育收益率和样本年份两者同时与样本平均年龄存在正向关系,如果在分析教育收益率与样本年份的关系时,遗漏了样本平均年龄变量,可能会导致结果高估。


图1 样本平均年龄、时间趋势与教育收益率







