刘西川：经验证据好坏优劣的研判标准 / 四六文摘

一、缘起

在最近一次讲座的提问环节，有一位同学提问：判断一篇实证论文经验证据的标准有哪些？当时时间比较紧，我在现场没有想的太细致，便回复他，这个问题提的很有水平，现场回答一时说不清楚，会在讲座结束后整理一下思路再好好答复。

关于一篇实证论文经验证据的研判标准这个问题，说来话长。我曾在不同场合讲过一篇实证论文中经验证据的重要性。例如，在《实证论文写作八讲》的“（二）实证论文的主要内容”中，我提出，从内容上看，实证论文包括三大部分：已有认识、新认识（新假说）和经验证据，书中的图1.2直观地展示了实证论文三大内容及其关系。关于经验证据，我当时强调了两点：一是实证论文第三部分提供的经验证据，它和新假说有关。二是论文要讲清楚用经验证据验证理论假说的逻辑合理性以及最终的具体检验结果。

再如，在推文“实证论文写作中的明暗两条线”中，我讲到：（1）某篇实证论文提出的理论性假说，必须借助经验性素材才能得以验证，实证分析部分的若干统计计量分析结果就是经验性素材（这里的经验性素材就是我们平日里讲的经验证据）。（2）经验证据有新旧。在一篇文章中，还有一组对比，即支持假说A的原有经验证据A'，支持假说B的新经验证据B'。当时，针对这个经验证据，提到了一种联想能力，这种能力具体是指，在文献研读过程中，碰见一个理论假说，要能“联想”与此相对应或相关的经验证据。

我还在做讲座时提到，如果按创新标准和工作成效来讲，大部分初学者朋友（包括我自己）写的经济学实证研究论文“取胜”的地方就是经验证据，或者说，最容易上手、也最容易做出成绩的地方就是经验证据部分了。或许，前面那个提问的朋友是听进去了这个观点，所以他才会提出这样的问题。回答这个问题的价值就在于讲清楚了判断经验证据好坏高低的标准，初学者朋友才能找准自己努力完善的方向。

二、经验证据的研判标准

我认为，要找对、找准经验证据的研判标准，仍需围绕实证研究和实证论文的目标来展开。实证研究和实证论文的核心就是证伪假说、推进理论认识。即，需要在证伪假说的大框架下来思考经验证据的研判标准。需要说明的是，在文中，经验证据特指实证研究论文中的计量统计分析结果。

（一）标准1：对应性

对应性是指，经验证据要和待检验的理论假说保持一致。最起码的要求是所提供的经验证据应和理论假说有关，让人觉得理论上说的和经验上说的是“一回事”。平常见到的“跑题”就是所提供的经验证据和理论假说离得比较远、对接不上，或者说不相关。例如，“某某问题的影响因素分析”，所关注某个或某几个因素基本上和所检验假说关系不大。

如何才能做到这种“对应性”？我想，需要针对研究设计下功夫：

1.针对某个假说，需要按照“概念——变量——指标”逻辑链条来梳理一遍。即：（1）与假说有关的两个概念是什么？（2）实证分析中找到的两个变量（因变量和核心变量）是否能表征和度量这两个概念？（3）数据是否能提供与上述概念和变量对应的指标？有些时候，一些年轻朋友在写实证论文时连这个逻辑链条都走不下来，开始的时候说的是一个事情，后来就说成了另外一件事情了。如果这个逻辑链条搞不定，这篇实证论文的经验证据就很难保证在逻辑和信息上与待检验假说保持一致，暂且不论理论方面。

2.上面的逻辑链条除了在内容上保持一致，还要做到对应，这就需要在思路上交代运用数据指标检验假说的研究框架、实证策略及具体步骤。研究设计要完成的任务是将指标代表的经验证据与概念代表的理论假说能从整体上“对应”起来。一些初学者或许也交代了变量和指标，但未能交代清楚研究设计的思路和策略，这就导致经验证据的整体对应性要差了很多。打个不恰当的比方就是，研究设计交代不清，就容易让人将你画的老虎当做了猫。

（二）标准2：层次性

经验证据的层次性是针对经验证据的构成及其结构而言。或许，用层次性还不够准确，因为我还认为，经验证据在内容上的完整性以及服务于假说证据的聚焦性等问题也同样重要。

为什么要做出或写出经验证据的层次性？那是因为实证结果是不一样的，在实证分析环节，不同的经验证据满足的假说检验功能是不同的。

为了验证假说，经验证据可按照检验准备、检验假说、保护假说和讨论假说来准备，与描述性统计、诊断性检验、基准回归、相关计量问题处理、稳健性检验相对应，至少要交代以下六个方面的经验证据：相关关系、计量模型假定与数据统计分布、计量估计结果、有识别难度的估计结果与克服识别难度的再估计结果，变换情境下的再估计结果及其他经验证据。具体可参见《实证论文写作八讲》的表6.1。

层次性的要求是，尽量先按照这种标准的“格式”，扎扎实实地把经验证据一五一十整理出来、写清楚，让人能看清楚经验证据的具体内容及其层次，让人能更准确地研判这些内容是否能有效地支持检验假说工作。也就是说，写清楚这种层次性，既是实证研究检验假说的必备动作和科研工作步骤的结果呈现，也是让人准确研判假说检验是否得以检验的前提，即实证结果是可以再复制的。

写不清楚这种层次性，原因主要有三个方面：一是有些证伪动作没有掌握或者没有发现这六个方面的经验证据存在缺陷，相应的经验证据“做”不出来；二是每一部分的经验证据可能都做出来，但存在不一致的情形，即实证分析结果有冲突，难以形成一股“合力”来支持检验假说工作。三是该有的都有，但线索不清晰，导致内容很散，层次性也就被这种散乱掩盖了，因此一定要围绕待检验假说来把经验证据写清楚。

（三）标准3：对比性

所谓对比性，从全文来看，是针对与原有认识（某种假说）的经验证据而言的。这又得回到新、旧两套假说及其经验证据的框架里（具体内容参见推文“实证论文写作中的明暗两条线”）。

一般而言，我们在一篇实证论文里都会按照提出问题——提出假说——研究设计——实证分析的思路来展开和写作。关于已有认识的假说和经验证据，一般在文献综述里提及。但在作者的整个框架里，有两套认识：第一套认识包括已有理论（即假说A）及其经验证据（即证据A'），第二套认识包括本研究的认识（即假说B）及其经验证据（即证据B'）。

在写实证分析部分的经验证据B'时，就要有意识、有目的直接联想到原来的证据A'。如果这种对应性很差，那就意味着利用新的经验证据验证理论假说进而挑战原有理论的可能性大大降低了。

从对比性的角度出发，就可以研判某项实证研究的水平高低了。一般而言，通过这个对比，就可以看出该实证研究是否新颖。对比性，一是要看到所提供的经验证据是不是不同寻常。这种新颖性，通常有两个情况，一种是基于新的数据或案例，还有一种是基于新的方法技术，把某个已有数据或案例中的信息进行了再整合，让它呈现出了新的经验图景。这也就能解释，大家为什么对新数据那么热衷的原因，因为新数据所包含的经验证据更可能有新意。

二是，这种对比是文章暗线的一部分。也可以从新旧故事及其对比来理解。当讲一个新故事的时候，就或明或暗地要借助一个老故事，这个老故事是参照，是靶子，它是为新故事提供了背景和开辟了道路。

（四）标准4：证伪性

证伪性讲的是验证假说的目的，这既是实证分析的最终目标，也是梳理经验证据的最高指引。证伪性，不是去证实，而是去提出反例，即心中始终应揣着“第101只天鹅是否是黑色”的疑问。

证伪实际上考虑的是，文中提供的理论假说A和B，经验证据A'和B'，旧假说A和旧经验证据A'，新假说B和新经验证据B'这四组之间的关系。现在要考虑的问题是，新的经验证据B'（明显区别于A'，与假说B保持一致）是否对A提出了理论上的挑战？

这个证伪性，背后工作的挑战性很大。按照通常的做法，提供了与文中待检验的假说一致的经验证据（例如，也做到了前述的对应性、层次性和对比性），感觉这篇文章就结束了。经验证据B'存在本身就是对原有理论认识的一种挑战，接下来需要考虑，这个经验证据是如何成为一个理论上的“反例”。

这里，我举两篇论文来说明经验证据的证伪性。第一篇论文是《农户信贷市场的正规部门与非正规部门：替代还是互补》（发表于《经济研究》2014年第11期）（以下简称“第一篇论文”）。第二篇论文是《合作金融组织剩余控制权安排的另一种可能——分权型及半阁村实例》（发表于《财贸经济》2018年第10期）（以下简称“第二篇论文”）。

在第一篇论文中，经验证据是：（1）正规部门与非正规部门存在互补关系，且这种关系在贷款关系为富裕群体时更加明显。（2）互补关系具体体现在农户同时参与正规与非正规两个部门，两个部门同时提供生产性贷款与消费性贷款以及共同支持某一借款者。该文经验证据的证伪性体现在，是对已有理论认识“两个部门之间关系是替代还是互补”争论的某种调解或回应；可以说，这个经验证据“否定”了两个部门之间存在替代关系的观点。

在第二篇论文中，经验证据是：半阁信用互助社的剩余控制权安排具有如下特点：（1）成员要入股，且入股金额较大；（2）风险控制主要依靠成员担保，在借款者股金+担保户股金范围之内发放贷款，同时也依靠理事会提供放贷决策支持服务；（3）强调按股分红，分红比例较高。其中，最为突出的制度特征是利用成员间的经济产权关系进行分散化的风险管理，并将这种关系集中在担保上，具体化和明晰化了担保户的担保责任。该文经验证据的证伪性体现在，半阁信用互助社剩余控制权的实施是分权而非集权的，这种分权式的做法实际上是对剩余控制权实施唯一性认识提出了理论挑战。可以说，这种证伪性属于针对性，即用一个新的假说去“否定之否定”一个旧的假说。其中，新假说是剩余控制权实施可以非唯一，可以分权，而旧假说则认为剩余控制权实施是唯一的。

当然，仅考虑到不寻常或反例是不够的。新的经验证据B'是对已有认识（即理论假说A）的反证。通过假说检验过程（包括搜集和整理经验证据），我们试图推进这个领域的认识水平。当我们有幸碰到了具有证伪性的经验证据时，还需要进一步去反思已有理论和进一步发展新理论，以便更好地理解经验证据和解释经济现象。

三、结语

以上讲的都是属于好的经验证据的标准。最后，在这篇推文结尾，我还想谈谈属于不好的经验证据的四种情形。

第一种不好的情形是，文章提供的经验证据过于普通、不新颖，甚至可以说类似的经验证据在已有研究文献中一抓一大把。可以想象一下，如果一篇实证论文提供的经验证据和已有研究基本没有什么不一样，又何谈什么新的发现或新的理论认识呢？从这个角度来讲，对于初学者而言，实证论文中的经验证据一定要新，要有新意。

第二种不好的情形是，文章所提供的的经验证据与待检验的假说乃至研究主题的相关性不强，不能说经验证据对假说检验没有帮助，只能说，这种支持的力度和效度是有限的，不解渴。从这个角度来看，一定要在研究设计上谨慎选取指标。

第三种不好的情形是，经验证据很多，但这些证据之间存在内在冲突，难以自圆其说，从而破坏了经验证据这幅图景的完整性。这种情形比较常见，在整个经验证据中，有亮点，但也有地方与亮点相冲突，一时半会不知道如何处理和解释。

第四种不好的情形是，经验证据的理论性较差，看不出这样的经验证据和什么理论有关，也看不出这样的经验证据对挑战和发展什么理论有关。经验证据部分该有的都有的，唯独让人看不到作者在理论上的“企图”。也就是说，由提供的经验证据出发，不仅要讲好一个经验故事，还要在理论上对原有认识提出挑战，更要在这个经验证据以及假说检验的基础上，去更全面、更深入地看待该研究领域的问题。一言概之，经验证据的理论性不仅体现在挑战原有理论上，更体现在发展新理论上。

刘西川阅读写作课

希望通过

课程内容学习、刻意训练以及对前人经验的借鉴和吸收，

切实提高年轻朋友的阅读与写作能力。

主推三个栏目：

文献阅读与写作课程、个人原创和站在前人肩膀上。

该号由华中农业大学刘西川教授负责的研究团队维护，

刘西川：经验证据好坏优劣的研判标准

相关推荐