法学研究中的算法问题 | 计算法学:作为一种新的科学研究方法
邓矜婷 张建悦
中国人民大学 刑事法律学院 北京
计算法学方法之所以能称为一种新的法学研究方法,而不仅是定量法学研究方法中的一种处理数据的方法,一方面是因为从计算社会科学延伸而来的计算法学具有独立的研究对象、研究方法和研究领域,另一方面是计算法学方法具有迥异于其他法学研究方法的运用计算机处理海量数据的显著特点。正因如此,计算法学方法除了能够获取、处理海量判决书外,还可以在非定量法学研究问题中发挥作用。
计算法学方法在本质上是将一个法律研究问题的一部分或全部形式化为可以计算的问题,或者由计算机演算的过程;它往往是抽象、模拟人们思考和解决这一法律问题时的过程,再由计算机执行这一过程予以解答。
所以虽然计算法学方法因其主要用于处理大量法律数据而与定量实证法学研究联系颇紧,但若因此而认为计算法学方法是传统定量研究方法的分支,并将其局限于传统定量研究的领域则未免狭隘了。
虽然暂时计算机还未用于规范研究,但可以预见随着法律人更为深刻地理解计算法学方法,这类方法被用于规范研究是完全可能的。另外,目前政法实务界正在如火如荼进行的运用算法建立定罪量刑模型,其实也是运用计算法学方法来研究和确定法律规范或概念的可解释边界。
具体到定量法学实证研究中,计算法学方法的作用可以细分为三大类。一是自动获取大量判决文书。二是自动提取文书信息。三是自动更新文书、提取的信息和用以提取抽象信息的算法。
计算法学方法体现了计算思维和法学思维的融合,而不是简单地拼接。计算法学思维具有独立的复杂性和学术价值,一般而言有四个基本步骤:将法学问题形式化为可计算的问题,选择合适的计算方法,设计需要的计算机功能以及编写程序实现设计的功能。
计算法学思维是以研究或解决某一法学问题为任务,通过运用已有的计算机方法,在已有的计算机能力基础上培养或发展完成任务所需要的计算机能力,再通过这一能力完成任务,并通过任务完成的好坏检测和完善计算机能力。
它是计算机科学与法学思维的结合。它要求法律人在解析法学研究问题时能够意识到怎样的法学问题有可能并且适合通过计算机实现,设想出将问题分解为计算机可实现问题的路径,并能进一步了解实现需要的方法和条件是否存在,以及掌握建立条件、运用方法让计算机实现研究的能力。目前学界认为,可计算问题的核心特点是其表述明确无歧义,其解决过程自洽无矛盾。
本文通过对当前计算法学的主要运用场景——智能处理判决书的梳理发现,运用计算机处理包括以下五个步骤。
第一,判决书的获取。评价获取判决书的手段有三个维度,即获取数据的完整性、效率、可重复性。本文采用爬虫手段,访问提供判决书的网站,以快速、高效、低成本地获取判决书。
第二,数据预处理。判决书的预处理过程通常包括文件格式统一、文本内容清洗、数据去重、数据筛选、生成标识码几项内容。
第三,提取要素的通用过程和方法。由于判决书的格式较为规范、表述相对固定,提取判决书中的要素更适合采用正则表达式路线。基于正则表达式提取判决书要素的过程可以概括为读入判决书内容—按照文本结构分解文本—设定待提取要素—编写正则表达式提取要素—输出提取结果—准确度检查和程序改进。位置相对固定的要素可通过正则表达式直接提取,首先确定要素在判决书中出现的位置,而后根据经验和知识产生提取逻辑,提取逻辑融入用编程语言描述的正则表达式之中,再由计算机程序执行和获取结果。提取位置不固定的要素,基本思想是让正则表达式在更大的文本范围内展开检索,获取尽可能多的检索提取结果,再根据提取结果的具体情况筛选或计算出最终结果。提取间接要素实质上是对已提取要素的加工和延伸,决定了数据挖掘的深度。再加工的关键在于如何寻找和确认一种科学可信的算法,并通过该算法确定一个格式固定且具有研究价值的输出。这种算法大部分和人的某些判断逻辑相类似,但不局限于对人思维过程的模拟,也可能是数学计算、统计推论等,极其灵活且富有创造性。
第四,提取要素的输出。要素被提取后要让计算机进行自动输出,并注意要素的保存和再利用。
第五,提取要素的准确率检查。这是提取判决书要素必不可少的环节,直接影响研究结论的正确性。
本文经过计算得出,当判决书总量大于385时,人工抽样检查的样本容量恒为385,此时有95%的把握认为样本准确率和总量准确率的误差不超过5%。此外,应使用有放回的抽样方法,即重复抽样。
计算法学生态的形成对这个领域的发展和计算法学方法价值的充分发挥有至关重要的作用,而实践、具体、可传承的严谨的学术探讨和尽可能开源的程序才能更好地促进生态的形成。如此,法学研究才能更好地在目前正在进行的智慧司法软件的研发中发挥作用。
计算机科学是目前将学术产业化做得最好的学科。计算法学的出现和发展就是为了搭建架接这两套话语体系的桥梁,探索将可能需要计算机帮助的法学问题转化为可计算问题的方法,寻找和培养能够解决已转化问题的计算方法和能力,检测、修正和更新既有的算法,从计算结果中获得有法学价值的信息,丰富法学研究的领域和方法。
《法学》2019年第4期,约20000字