博导讲堂|实证论文写作的六个要点及示例分析
本文根据刘西川老师的讲座视频整理而成,文稿未经专家本人审阅。
作者简介:
刘西川 华中农业大学经济管理学院教授、博士生导师,中国合作经济管理学会理事,国家自然科学基金项目通讯评议人,《经济研究》《管理世界》《金融研究》《财贸经济》《中国农村经济》等权威期刊匿名审稿人。主要研究方向为:农业金融、中小企业融资、中小银行治理与金融扶贫。主持国家自然科学基金青年项目、面上项目各1项,出版《实证论文写作八讲》等著作3部,在《经济研究》等刊物上发表论文多篇,荣获全国2010年优秀博士学位论文提名论文、2012年第五届中国农村发展研究论文奖、2020年第八届高等学校科学研究优秀成果奖(人文社会科学)二等奖等。
写清楚实证分析要把握住以下三点:①要明白实证分析的焦点是检验假说,一切内容都要紧紧围绕假说展开。②要注意规范,回归结果、检验结果等都要遵守一定的格式和规范。③要注意实证分析中的“估计结果”应该是原创的,是区别于已有研究的,而实证论文就是对新估计及其分析结果的汇报。
具体到一篇论文,就是要将实证分析六个动作的过程及结果写清楚。这六个动作分别是:①描述性统计;②诊断性检验;③基准回归;④相关计量问题处理;⑤稳健性检验;⑥进一步讨论。所谓把实证分析写清楚,通常可以理解为汇报回归和检验结果。汇报结果有两个步骤:第1步是将数据结果汇总、制作成表格;第2步是围绕假说检验解读表格数据。这就要求表格里的信息是“挑选”出来的,与检验假说紧密相关,而正文文字则需要与回归结果保持对应。
(一)描述性统计
描述性统计是介绍基本事实情况、样本情况以及对假说进行初步检验。它包括两个部分:第一部分是描述性统计表,即对所使用的变量进行统计,具体包括变量名称(或简称)、含义、英文缩写、单位、观察值以及一系列统计值等。第二部分是描述性分析,它有两个功能:①简单介绍数据结构和样本的基本情况。②对待检验假说展开初步考察,如通过散点图、列联表等呈现一个简单、直观的“图像”。
(二)诊断性检验
在分析计量估计结果之前,有必要交代一下计量模型适用性的检验思路、方法及其结果。可以用相关检验,从统计和计量角度论证运用该模型的合理性。例如,选择多元Logit模型,就需做不相关选择项独立性假定检验(IIA假定检验) 。
【示例】刘西川、程恩江:《贫困地区农户的正规信贷约束:基于配给机制的经验考察》,《中国农村经济》2009年第6期。
IIA假定检验。多元Logit模型有一个基本假定,即IIA(independence from irrelevant alternative) 假定。所谓IIA假定,是指任意2个选择项的选择概率之比与其他选择项的状态无关。如果IIA假定不能得到满足,则选择多元Logit模型是不合理的。本文在估计前先采用了Hausman检验(参见Hausman&McFadden,1984) 对多元Logit模型的IIA假定进行检验,该检验的原假设为选择对象之间相互独立,即满足IIA假定。
(三)基准回归
基准回归部分重点讨论主要变量之间的关系。对于控制变量,正文应尽可能少讨论或不讨论。估计结果通常用表格来呈现,主要包括被解释变量与解释变量的名称、回归系数的估计值、标准误(或t统计量)、以星号来表示的统计显著性水平,以及相关的统计量(如拟合优度等)。制作表格的目的就是要让读者便捷、完整且清楚地了解估计结果。同时,表中的变量名称应尽量采用有意义的中文简称,少用无意义的英文字母组合。
在正文中,需要对表格中的相关信息进行解读,包括回归系数的统计显著性与经济显著性、符号是否与理论预期相符、如果有不符可能存在的原因等。解读结果的过程中,还需要注意以下方面:(1)如果是多个假说,最好用小标题分开。针对某个具体假说,一般要先回顾计量模型部分检验假说的“标志”,然后报告相关估计结果(如核心自变量的估计系数等)。(2)结果分析要围绕假说展开,而不是完整地读一遍估计结果(这时候,八股文的范式是不起作用的!)。(3)估计结果的解释和讨论要围绕研究设计的思路来展开,有种层层推进或紧紧咬住假说的感觉。(4)不要喧宾夺主,下大力气对一些不关紧要的控制变量及其估计结果进行解读。(5)很多时候,为了达到一种(为更精准检验假说的)设计或实验的目的,作者会选择一些不同的估计方案,以期达到他的目的。
(四) 相关计量问题处理
这部分要重点交代涉及假说检验的相关计量问题(如内生性问题、样本选择偏差问题、异质性等问题)的处理思路及其结果。切记:一定要围绕假说检验来展开分析、解释和讨论。
具体的写作步骤是:①阐释某个计量问题存在的表现形式及原因;②给出解决该问题的思路及依据;③给出解决该问题的方法及其估计结果解释。
(五)稳健性检验
稳健性检验的目的:保证估计结果在其他情境下同样成立,它是所检验假说的“保护带”选择何种转换方式,以经济理论上的考虑最为重要,不能仅仅为了提高模型的适配性,而盲目地做一些变量转换。在写作方面,要给出某个稳健性分析的目的、思路和具体做法,同时给出相关估计结果的表格,最后还要给出假说是否依然成立的定论。在实证论文里,至少要先完成研究主题相同或类似、并且也采用数据和计量模型的实证研究中的稳健性检验,做到人有我有。稳健性检验的手段:变换模型和估计方法、替代数据和变量、设置控制变量以及分样本和分时段回归检验等。
(六)进一步讨论
为什么要讨论?讨论是在一个更大的范围内讨论假说的成立问题。从一定程度上讲,计量模型与数据分析代表的只是统计意义上的检验,所以还需要从经验和理论层面上对假说进行检验。还需要与其他竞争性假说结合起来,并与此展开比较,讨论就是针对所得出的结果做横向或者纵向的对比,包括自己的结果之间的比较、自己结果与别人结果之间的比较;如果结果存在差异性,则要对结果之间差异性的成因作讨论分析。分析结果强调的是计量模型的输出结果,而讨论则强调把分析结果“打乱”,提出更值得辨析和更有意义的结果,是对实证分析结果的反复验证和提炼。讨论有三重境界:①得出与同类研究相同的结果(意义一般不大)。②得出与同类研究不同的结果,但未讨论差异的成因(需要升华)。③得出与同类研究不同的结果,并对差异的成因进行分析(较高水平)。
【示例】黄祖辉、刘西川、程恩江:《贫困地区农户正规信贷市场低参与程度的经验解释》,《经济研究》2009年第4期。
(讨论什么?)为了实证检验本文第三部分对有关计量模型的讨论结果,我们比较了单方程Probit模型和Tobit模型与需求可识别双变量Probit模型的估计结果。单方程Probit模型和Tobit模型的估计结果见表6.4...。
(讨论的结果之一) 通过比较Probit模型、Tobit模型和需求可识别双变量Probit模型的估计结果(见表6.5),可以得出以下结论:第一,三个模型的估计结果均表明,富裕样本农户获得正规贷款的概率较高,即农信社贷款向固定资产和非农经营收入占总收入比重大的农户倾斜,这与多数文献的发现相一致。第二,工资收入负向影响农户对正规贷款的需求,这和目前贫困地区经济结构的转变相吻合。第三,回归结果显示,农户对信贷的需求与缺乏弹性的消费需要相关。
(讨论的结果之二)上述分析表明,只考察单方程模型,很可能会错误解读估计结果,例如,非农经营收入占总收入的比重。根据Tobit模型的估计结果,可能会得出从事非农经营项目的农户对正规贷款的需求高这样一个错误的结论。而需求可识别双变量Probit模型的估计结果表明,非农经营收入占总收入比重高只对正规贷款可得性的影响为正,而对正规贷款需求的影响并不显著。这只能说明非农经营收入越高的农户受到正规信贷约束的概率越小,并不能说明这类农户对正规信贷的需求越高。
(1)从规范的角度来看,实证分析部分应做到:①要保证统计方法和计量模型的合理性,即要报告相关检验的结果,以支撑模型和方法选择的合理性。②围绕假说展开分析,其中至少要做到两点。其一是根据前面提供的假说检验标准展开分析;其二是要从经验和理论角度来审视估计结果。
(2)初学者要抓住检验假说这一关键,实证分析的所有工作与努力都应该紧紧围绕检验假说这个重点展开,尤其是基于统计和估计结果的分析与讨论。①最忌讳的是将计量分析部分当作计量“诊断”结果,逐一报告相关统计分析、计量分析结果,如显著性水平、符号正负、系数值大小等。②要有目的、有选择地报告表格内的信息,即对假说检验有用、有帮助的信息才报告。
(3)掌握方法与技术是基础和前提,研究者所掌握的方法与技术要全面和完整,该会的都要会,该包括的内容都要包括。至少应掌握的“六种动作”是:描述性统计、诊断性检验、基准回归、相关计量问题处理、稳健性检验和进一步讨论。
(4)实证分析的核心是“分析”,而不仅仅是报告结果!实证分析是由功能性元素、动作性元素和对象性元素组成的。初学者应将两个“有必要”铭记在心:第一个是“有必要”反复揣摩和练习实证分析中的六种动作。第二个是“有必要”弄清楚每个具体动作所作用的具体对象。
(5)关注细节!例如每一个表格的表头名称都应简洁且精准,表格应美观、匀称。同时,每一个表格都需要搭配相应的文字,不能只有表格而没有相关文字阐述。对自己提更高的要求!最好能从讲故事的角度来编织这部分内容,而不是干巴巴地写上分节的标签,例如(一)描述性统计;(二)诊断性检验等等。