北京物流信息联盟

白建军 | 法律大数据时代裁判预测的可能与限度

2022-03-20 09:52:22

◆ ◆ ◆ ◆

上海社会科学界联合会主办主管

以学术为底色      以思想为旗帜

◆ ◆ ◆ ◆

法律大数据时代裁判预测的可能与限度

白建军 | 北京大学法学院教授、博士生导师

本文原载《探索与争鸣》2017年第10期

非经注明,文中图片来自网络

裁判预测是基于法律规定及大量以往案件信息与法律后果之间关系的科学分析,对未决案件法律后果的一种或然性推测。大数据、人工智能的加入,使真正意义上的裁判预测成为可能。但是,法律上的裁判预测毕竟有其特殊性。真正让人担心的并非人工智能取代律师、法官的职业。目前绝大多数法律大数据研究的主要数据来源是公开的裁判文书,而对案件处理具有显著影响的因素未必都写进判决书。即使实现了海量案例的大海捞针,裁判文书中有些有效信息还是没得到充分利用,部分法律大数据研究仍难免小样本思维的危险。据此,大数据、人工智能与法律合作的科学基础以及裁判预测的根据,应是各种意义上法律信息、司法规律、司法人员集体经验的深度实证分析。

什么是裁判的可预测性

具有一定可预测性的司法裁判不一定是公正的,但毫无可预测性的司法裁判一定是不公正的。其实,法律规定本身就是一种行为后果的预测,法治的一个标志性属性,就是司法裁判的稳定性、可预测性。而在人治社会中,也可以有海量法律条文,也会有精致的法学,但人们还是无法预知自己行为可能导致的法律后果。理论上,司法裁判的可预测性所反映的是法律适用的确定性问题。

对此,学界有两种理论倾向。德沃金的“唯一正解”说,可以被视为强调法律确定性的代表。在德沃金看来,法律是一张无缝之网,总有正确的答案存在于其中。与此不同,一些学者更多注意到法律运行中实际存在各种不确定性,强调关注这些不确定性的重要意义。不论是强调“唯一正解”还是看重实际上的不确定性,两种理论其实并不矛盾。它们都认为法律应当是确定的,只是因为实际上存在各种不确定性,才有了各自的关注重点。

所以,美国大法官卡多佐认为,法律发展的逻辑不是寻求“确定性”,而是寻求一种“可能性”。既然如此,真正的问题便应该是法律确定性的程度问题,即法在多大程度上实现了对社会的规范。

沿着这个思路,所谓司法裁判预测就是指,基于法律规定及大量以往案件信息与法律后果之间关系的科学分析,对未决案件法律后果的一种或然性推测。首先,裁判预测的根据包括应然性法律规定、规则,以及以往案件的实然处理结果、大量的审判经验。正因为法律规则本身不可能直接拿来预测其适用结果,在实际适用中会面对各式各样的不确定性,基于经验的预测才变得有意义。其次,作为预测根据,以往案件事实和处理结果的数量越大,稳定性越强,集中趋势越明显,可预测性就越强。没有一定规模裁判数据信息的积累、公开,就没有真正意义上的裁判预测。再次,裁判预测是基于概率分析对裁判实践提供参考信息,所反映的是过往审判实践中的法官集体经验或“平均理性”,不能替代当下案件的审理结果。

裁判预测其实无处不在:司法人员、律师、当事人、其他诉讼参与人、媒体、学界,都希望知道一个案件进入司法程序后的结果将会如何。而裁判预测的效果到底如何,与许多因素有关。

首先,裁判预测的效果与司法公信力相辅相成,互相促进:裁判预测效果越好,司法公信力就会越高;同时,司法公信力越高,裁判预测的效果也会更好。其次,裁判预测还与违法、犯罪的预防效果有关:当人们对自己行为的法律后果具有较为确定的预见,就会更加理性地选择自己的行为。违法犯罪招致相应惩戒的后果越不确定,空间越大,人们越可能选择铤而走险。再次,裁判预测还与信息公开的程度有关。在裁判文书全面公开之前,裁判预测只能是纸上谈兵。因为裁判预测其实就是在原有充分审判信息基础上对未来的推断,没有过往数据,就没有对未来的预测。

不过,也正是裁判文书的全面公开,给裁判预测出了道难题:面对海量的审判数据信息,传统的人工检索、分析、预测方式不得不望洋兴叹。好在,法律迎来了大数据、人工智能。“阿尔法狗”的胜利,撬动了许多领域的大门,人们开始重新审视自己的工作效率以及引进人工智能的可能性。对大量的网上社交信息、博弈信息、医疗信息,以及司法裁判信息,现代信息科技正好派上用场,让人们可能从繁重的重复性劳动中解放出来。目前,一些法律大数据、人工智能的研究成果以及审判预测工具已经成功进入普通人的视野,并受到了多方积极评价,可喜可贺。

大数据遭遇法律特殊性

但是,法律上的裁判预测毕竟不同于棋牌博弈的胜负预测。目前,人工智能与法律的合作至少有两个方面。一是减少重复劳动,提高工作效率。在这方面,未来的法律世界无疑是人工智能的用武之地。另一方面是对法律信息的深度分析和据此所做的法律后果预测。如果对此不加区分,人工智能与法律之间就像存在一张帷幕——帷幕的一面,人工智能认为自己是表演者;而帷幕的另一面,法律认为自己才是主角。尤其对第二种合作而言,谁是表演者的问题至关重要。

笔者认为,大数据、人工智能要为法律服务。如果对司法裁判本身的特殊规律缺乏应有的了解,没有相应的解决方案,大数据、人工智能的加入不仅无助于司法公正,甚至可能帮上倒忙。现在,真正让人担心的不是人工智能会不会取代律师、法官的职业,而是对法官、律师在案内案外的许多能动的实践活动,人工智能尚知之甚少,甚至无能为力。据此作出的裁判预测,有可能用某种貌似确定的东西掩盖实际上的不确定性。

首先,目前绝大多数法律大数据研究的主要数据来源是公开的裁判文书,而对案件处理具有显著影响的因素未必都写进判决书。的确,案例是法治的细胞,是微缩的法治,包含了法治的许多信息:立法和司法、事实和规范、实体和程序、原告和被告、问题和结果,等等。

以裁判文书为基本数据来源,法律大数据通常会从海量裁判文书中迅速筛选出满足一定特征值的案例。有的是将裁判文书文本碎片化,然后对其进行类型化处理,形成各种分析和检索的路径。有的是直接利用计算机程序从裁判文书中抓取有用信息,满足相应的检索需求。直到裁判文书全面公开以前,实现这一点对许多法律人来说都只是个梦。而且,作为这些法治要素的官方记录,裁判文书以权威机构发布的标准化电子文本形式向世人公开。这对法律大数据研究和服务而言,简直是一座免费的金矿。

但是,对这一法律资源的开发利用不能不顾及法治自身的特有规律。因为,裁判文书不等于案例,只是记录案件处理过程和结果的官方文本,某些案外因素不可能原原本本地体现在判决书中。

例如,一个时期特有的司法政策往往时宽时严,且不可能不对具体司法裁判构成影响。对案件酌定情节、特殊加害被害关系等特定事实的理解和把握往往因人而异,既可能体现资深法官长期审判经验积累乃至人文情怀,也可能暴露不同司法人员对具体案件事实的误读。法官的某些价值取向、主观偏好、司法潜见、偏见、实践经验,甚至性别、年龄、学历、个性等事实上也与案件处理结果有关。此外,各类权钱交易、人情案、行政干预、,也是不争的事实。而对这些信息的收集、整理,再强大的人工智能也尚需时日,至少不大可能从现有判决书中抓取出来。因此,说现有所谓法律大数据所做的裁判结果预测,大都是基于不完整信息所做的预测,并不为过。

当然,案件信息的完整性是相对的,裁判预测的准确性也是相对的。但是,由于上述案外信息既有积极的一面又有消极的一面,所以,所谓相对性并不构成可以忽视案外信息对裁判预测结果具有双重影响的理由:一方面,有的案外信息其实对案件处理具有积极影响,例如特有的加害被害关系,由于种种原因无法写进裁判文书。这类信息的缺失,使得法律大数据的运用实际上是裁剪掉部分实然公正后所做的裁判结果预测。另一方面,有的案外信息其实对案件处理具有消极影响,甚至存在违背法律事实的暗箱操作,当然也无法体现在裁判文书中。而这类信息的缺失,又使得基于法律大数据的裁判结果预测实际上起到掩饰、固定,甚至放大不公正的效果。可见,法律大数据并不必然推进司法公正,法律大数据也不一定解决司法不公问题。

遗憾的是,对此目前还没有看到令人满意的解决办法。甚至,有些法律大数据研究尚未意识到这个问题的存在。其实,韦伯和《论经济和社会中的法律》一书的编译者们早就表达了这个担心。书中至少有两处提到了“法律自动售货机”。一处是在“现代法律的形式特点”一章中,作者指出,现代法律发展已经出现了反形式主义趋势。……挑战法律形式主义的反形式主义态度是伦理的,以实质性的正义,而不是以形式的合法性为基础。在这一语境下,律师作为解释法律和契约的专门阶层,其作用就像一台投币自动售货机,只要投入实施(加上费用),便可得出判决(加上意见)。对此,作者的基本态度是,判决是,而且应该是考虑到具体的评价,而不是形式的规范。不难看出,借助自动售货机的比喻,作者试图说明,司法实践是人的能动的实践,是法律的和各种非法律因素的共同结果。

另一处关于自动售货机的讨论,出现在该书关于“理性的和非理性的司法行政”的论述中。作者首先指出,包罗万象的法律观正受到严峻的挑战。人们尖锐地批评那种将法官仅仅看作是一部加工机器的做法,这种法官只知道将当事人的诉讼要求和诉讼费一起塞入机器,然后根据从法典中推演出的理由进行诊断。和上一处一样,不论谁操作这部机器,都无需操作者特有的能动的、创造性的法律实践。

可见,借助自动售货机的说法,作者表达了对那种绝对形式理性的法律观的否定立场。在这个意义上的自动售货机中,只有法律概念的机械运算,没有伦理的、社会的、功利的考量。总之,应予否定的,不是自动售货机的高效、精确和确定,而是对具体案件具体法律实践者能动适用法律的忽视。对此,法律人工智能能做些什么,能做到何等程度,目前尚不得而知。

其次,即使实现了海量案例的大海捞针,裁判文书中有些有效信息还是没得到充分利用,部分法律大数据研究仍难免小样本思维的危险。通常,遇到“狗咬人”式的大概率常见案件,人们不大会求助于以往案例进行裁判预测。不过,当遇到“人咬狗”式的小概率疑难案件,即法律上不典型、实践中不常见、含义上不明确的情况,哪怕是大海捞针,人们也希望找到相似生效判决作为参照,以佐证某种立场。为满足这种需求,传统的解决方式是自上而下的“供给”,即发布司法解释或指导性案例供人们各取所需。

现在,海量裁判文书信息突然之间全面公开,由“供给”变为“自选”成为可能,人们反倒有些许的不知所措。幸亏借助各种算法程序的大数据方法,能够从公开的几千万裁判文书中迅速检索到所需案件。这实际上让发现相似案件、同类案件的愿望得以实现,大海捞针不再是梦想。

而大海捞针找到相似案件,毕竟是一种“案对案”“点到点”的法律结果预测模式。问题是,为什么某个过往判决怎样判决,当下某个相关案件就一定要照此办理呢?毕竟,中国不实行判例法,天下也没有两片完全一样的树叶。而且,捞到的“针”即所谓相似案例未必能直接推论大海中其他事物的性质,也未必与看上去相似的案例具有法律上的同一性。从量化思维的眼光看,参照这种不一定有代表性的小样本处理案件,除了可能忽视上述案外信息的实际影响以外,还在科学性上存疑。

假定有两组样本,A和a。A组是某个案由的全样本,且涉及与该案由有关的全部法定要素。a组是从A组根据有限条件筛选出的部分样本,仅涉及某些法定要素。A组中用来预测法律后果的自变量(法定要素)为X,而a组中用来预测法律后果的自变量(法定要素)为X中的一部分,即x。现在的问题是,有一案件的基本要素与a组案件相似,用x对该案件的法律后果进行预测,和用X对其法律后果进行预测,结果是不是一样的?如果不一样,用哪个模型对该案进行预测更加科学——X还是x?

举例来说,一项研究表明,目前裁判文书网上公开的全国所有交通肇事罪判决书约14万件,我们可以将这组样本视为A组样本。以交通肇事罪全部法定情节为自变量,以刑期为因变量,对该组样本进行回归分析,并将其离散水平加以优化控制后,得到交通肇事罪刑期与法定情节之间关系的统计模型:

模型一:y(^)(交通肇事罪量刑结果)= 115..692+重伤人数*165.221-被害过错*64.227+涉案损失*6.747E-005+醉驾*51.159+毒驾*58.442+无证*28.812+安全装置不全*11.427+无号牌*12.352+报废*41.187+超载*43.991+与准驾车型不符*24.180+逃逸*591.322 -自首*63.856+累犯*248.532+e1

这就是A组样本的优化量刑模型,其中,等号右边第一项为常数项,最后一项为残差,即未知部分。其余所有项均为法定要素共15个,是影响刑期长短的自变量。由于该研究的目的就是分析量刑的合法性程度,所以,未将案外信息纳入模型。以A组样本即全样本为数据来源,运行该模型结果得到的回归确定系数R2为0.734。就是说,这15个法定要素的共同作用,能解释、预测73.4%的交通肇事罪量刑轻重的变化。模型中与每个法定情节的实际值(如致死几人、是否逃逸等)相乘的系数在模型中表示为B,是相应法定情节的非标准化回归系数,。二者的乘积表示:在其他自变量固定时,本自变量每增加一个单位对刑期的影响。据此,将任何一个未决案件的实际情节依次代入该模型,将得到的每个实有乘积相加,便可得到该案的预测刑期。由于模型中各个自变量之间是相加的关系,所以,即使一个案例只具备模型中部分自变量,用该模型进行预测,也可分享更大范围的实践经验及其集中趋势,所得到刑期预测结果可以视为审理14万案件法官的集体意见。

现在,我们可以做一个实验:一个需要预测量刑结果的个案,涉及法定要素有重伤一人、醉驾、自首三个条件。于是,从14万全样本中当然可以迅速筛选出同样具备这几个条件的若干案例,构成a组小样本共566个,影响其量刑的因素只有上述三个条件,即x。由此得到的模型为:

模型二: y(^)(交通肇事罪量刑结果)=常数项+重伤一人*b1+醉驾*b2-自首*b3+e1

现在的问题变为,这个小样本中与重伤一人、醉驾、自首对应的系数b,和上述全样本中同样三个情节的系数B是不是一样的?如果一样,说明用小样本预测和大样本预测结果没什么两样。答案是,当然不一样。因为前一个模型是完整模型,用来进行预测所得结果,是控制了其他变量下的净效应预测结果。而后一个模型实际上是假定其他法定要素均为零,即忽略其他要素的存在,据此计算出的系数b当然不可能等于其他要素实际上存在情况下的B。一个更简单的方法就可证明这一点:上述566个小样本的平均刑期为510天,刑期中值为360天。而用大样本模型预测,这个重伤一人、醉驾且有自首情节的个案预测刑期为268.31天——用小样本部分变量预测比用大样本全变量预测要重判八个多月!

当然,小样本的平均刑期也是真实的,甚至可以说,也是只有这三个情节案件的全样本。但问题是,根据这种样本进行预测所忽略的,理论上有可能是法律适用中的关键变量。其结果,既可能导致高估预测结果,也可能导致低估预测结果。不论高估还是低估,都是偏离。著名统计学家谢宇指出,如果在实际调查中只收集到y、x1和x2三个变量的数据,而忽略了实际回归模型中的自变量x3,则这种情况可能导致回归模型的参数估计值有偏。即使主要兴趣在于研究x1或x2对y的影响,忽略关键的自变量x3也会影响到对参数b1、b2估计的无偏性。这个道理从法理上说就是,所有交通肇事罪的法定要素都是由法律规定连接起来的一个有机整体,不能将各个要素之间的关系人为割裂开来看。且不说所有要素之间的组合可能多达数万种,就算得到数万的真实的刑期均值或模型,也很难说其预测结果体现了法律的完整意思。可惜,目前有些法律大数据应用仍未对此做出区分,没有意识到小样本预测的有偏风险。

也许有人会说,这个例子的因变量是连续变量,因而只适用于像刑期、损害赔偿额等法律后果的预测。而法律世界中,大量法律后果都是定类变量,如有罪还是无罪、此罪还是彼罪、是否构成侵权违约、胜诉还是败诉、是否属于防卫过当、是否赞成废除死刑等二分变量。这种二分变量只有定性上的差异,没有程度上的区别。

因此,对裁判预测而言,小样本的有偏风险不可避免,且可以得到控制。其实,统计学中的logistic回归分析就是一种对变量层次要求不高,因而对社会科学研究来说很好用的回归分析方法之一,它可以同时展开多个、多种自变量对一个二分定类因变量的统计分析。

的确,采用多元线性回归等分析方法分析二分的因变量,显然无法满足某些重要的统计假设而导致统计推断的严重误差和荒谬。但logistic回归分析允许多个多层次的自变量,如性别、年龄、地区、行业、文化程度、收入等,都可以同时进入分析过程,一次性地得到它们的共同作用结果,进一步的分析还能分出各自对因变量的作用力大小。所获结果之一叫做发生比,意思是自变量每上升一个单位,因变量结果出现的机会将是原来的多少倍。比如,被害人数每多一个,或者损失金额每上升1000元,胜诉(败诉)的机会将是原来的多少倍。重要的是,这种分析与上述多元线性回归分析在原理上没什么根本不同。既然如此,说法律世界不得不接受小样本预测的说法,是站不住脚的。在这个视角看来,与其说满足于小样本裁判预测是对法律领域特殊性的忽视,不如说是对基本量化分析原理和方法缺乏了解。

对策建议

既然裁判预测意义重大,传统法学与大数据、人工智能的合作又有巨大空间,接下来的问题便是,如何进一步拓展这一合作。笔者认为,大数据、人工智能与法律合作的科学基础以及裁判预测的根据,是各种意义上法律信息、司法规律、司法人员集体经验的深度实证分析。因此建议,推进计算机科学、统计学、法学的跨界融合,在以下几个方面强化法律实证研究:

第一,广泛收集判决书以外对法官裁判行为可能构成影响的各种因素及其作用过程的信息,深入研究法律要素与案外因素的权重对比关系。案外信息包括案卷材料、公诉文书、辩护词、原被告关系、法官的自然特征、经历、偏好。例如,波斯纳等几位学者在最近的新书《法官如何行为:理性选择的理论和经验研究》中,借助于劳动经济学的概念,把法官模型化为某个劳动力市场(即司法劳动力市场)的参与者,认为法官和其他类型的劳动者一样,会受到成本和收益的激励和约束。其中,对法官行为的非货币影响因素主要包括付出的努力、外界的批评、同事关系的紧张、闲暇、来自他人的尊重、社会影响力、自我表现、名声、,等等。书中还关注不同层级法官在进行决策时,意识形态因素(共和党还是民主党)和法律条文分析因素的相对权重关系,并大量使用了回归分析的方法,区分每一个单独变量所产生的影响。

第二,即使在裁判文书内,仍有一些很有价值的信息值得深入挖掘。孤立来看,判决书中许多信息没什么意义。但如果联系起来看,就会发现一些极具预测价值的信息、关系或规律被弃之不用,十分可惜。例如,一项研究从如何看待无罪率的视角切入,以32万刑事判决为样本,对其中的有罪判决与无罪判决进行量化比较。结果发现,无罪与有罪的司法决定不完全取决于案件基本事实是否符合实体定罪条件,还与刑事诉讼过程中的某种司法潜见有关。司法潜见源于证据信息不对称、实体性暗示、控辩力量对比悬殊、控方对案件的初选等四类背景信息,使司法人员对案件是否有罪的最终结果早有心理准备和预期。司法潜见包括无罪潜见,也包括有罪潜见。由于司法潜见的存在,一些有罪判决是实体定罪条件与有罪潜见的综合产物。司法潜见位于形式理性与实质理性二元分析框架的盲区,只有在坚持形式理性的过程中,自觉控制司法潜见的影响,才能实现对公民刑事法权利的平等保护。此外,证据信息也出现裁判文书中,各类证据与裁判结果之间的关系,也可能是法律大数据研究的一座富矿。

第三,预测通常是积极的或然性认识,但实际上,消极的、排除性的或然性认识也可能是一种预测形式。一项75万刑事判决样本中的变更罪名案例的研究,就是一个法官集体说“不”的大样本。据此提炼出来的类型化案件事实法律性质的否定性特称判断,其实就是一种消极的或然性预测。从某种意义上说,法律适用的三段论推理过程中,大前提只是被人们事先放进一些东西(规则)的盒子,人们进行三段论推理时往往需要“猜测”盒子里曾经装进了什么。基于大样本经验概括的消极或然性预测,不一定能使盒子里到底有何内容变得比较清晰可见,至少可以告诉人们,盒子里其实没有什么。所以,这种预测又可以称为一种“小但书”式的裁判预测。因为这种否定性特称判断并非出现在刑法总则中,只是对具体罪名适用的排除性预测。而且,结论既可能是绝对无罪也可能是相对无罪(变更罪名)。

第四,尽可能用来自全样本的完整模型进行裁判预测。模型是以往经验与未来推断之间的桥梁,人们只有借助模型才能看到已然与未然的联系。所以,残缺的模型是对原始样本信息和人们集体经验的肢解。没有完整、科学的模型,再大的样本对预测来说也毫无意义。另一方面,样本是蕴含事物之间联系的载体,人们只有根据对样本的观察才能建构模型,也只有基于样本信息才能检验模型的科学性。所以,没有经过科学抽样规则获取的足够大的样本,再精致的模型也只是个应然猜想的数学表达。

当然,就连自然现象的预测,如天气预报,也可能存在一定误差,司法裁判预测也不可能绝对精准。毕竟,样本越具代表性,模型越完整科学,进行裁判预测所冒的犯错误的风险就越小。即便如此,预测结论也只是个参考信息,不能代替审判结论。一旦预测代替了结论,预测所根据的样本和模型就丧失了学习能力,预测本身也即失去了生命力。所以,给实际裁判留有足够空间的预测,或者不够精准的预测,才是科学的预测。

《探索与争鸣》人间体

联络员小探

xiaotanxiaosuo

转载 | 合作 | 咨询 | 建议

长按扫码加好友

END

人文社科学者的平台


《探索与争鸣》

唯一官方微信平台

联系电话:021-53060418

投稿邮箱:tansuoyuzhengming@126.com

版权所有。欢迎个人转发,媒体转载请联系授权

友情链接

Copyright © 2023 All Rights Reserved 版权所有 北京物流信息联盟