举例来说,一项研究表明,目前裁判文书网上公开的全国所有交通肇事罪判决书约14万件,我们可以将这组样本视为A组样本。以交通肇事罪全部法定情节为自变量,以刑期为因变量,对该组样本进行回归分析,并将其离散水平加以优化控制后,得到交通肇事罪刑期与法定情节之间关系的统计模型:
模型一:y(^)(交通肇事罪量刑结果)= 115..692+重伤人数*165.221-被害过错*64.227+涉案损失*6.747E-005+醉驾*51.159+毒驾*58.442+无证*28.812+安全装置不全*11.427+无号牌*12.352+报废*41.187+超载*43.991+与准驾车型不符*24.180+逃逸*591.322 -自首*63.856+累犯*248.532+e1
这就是A组样本的优化量刑模型,其中,等号右边第一项为常数项,最后一项为残差,即未知部分。其余所有项均为法定要素共15个,是影响刑期长短的自变量。由于该研究的目的就是分析量刑的合法性程度,所以,未将案外信息纳入模型。以A组样本即全样本为数据来源,运行该模型结果得到的回归确定系数R2为0.734。就是说,这15个法定要素的共同作用,能解释、预测73.4%的交通肇事罪量刑轻重的变化。模型中与每个法定情节的实际值(如致死几人、是否逃逸等)相乘的系数在模型中表示为B,是相应法定情节的非标准化回归系数,。二者的乘积表示:在其他自变量固定时,本自变量每增加一个单位对刑期的影响。据此,将任何一个未决案件的实际情节依次代入该模型,将得到的每个实有乘积相加,便可得到该案的预测刑期。由于模型中各个自变量之间是相加的关系,所以,即使一个案例只具备模型中部分自变量,用该模型进行预测,也可分享更大范围的实践经验及其集中趋势,所得到刑期预测结果可以视为审理14万案件法官的集体意见。
现在,我们可以做一个实验:一个需要预测量刑结果的个案,涉及法定要素有重伤一人、醉驾、自首三个条件。于是,从14万全样本中当然可以迅速筛选出同样具备这几个条件的若干案例,构成a组小样本共566个,影响其量刑的因素只有上述三个条件,即x。由此得到的模型为:
模型二: y(^)(交通肇事罪量刑结果)=常数项+重伤一人*b1+醉驾*b2-自首*b3+e1
现在的问题变为,这个小样本中与重伤一人、醉驾、自首对应的系数b,和上述全样本中同样三个情节的系数B是不是一样的?如果一样,说明用小样本预测和大样本预测结果没什么两样。答案是,当然不一样。因为前一个模型是完整模型,用来进行预测所得结果,是控制了其他变量下的净效应预测结果。而后一个模型实际上是假定其他法定要素均为零,即忽略其他要素的存在,据此计算出的系数b当然不可能等于其他要素实际上存在情况下的B。一个更简单的方法就可证明这一点:上述566个小样本的平均刑期为510天,刑期中值为360天。而用大样本模型预测,这个重伤一人、醉驾且有自首情节的个案预测刑期为268.31天——用小样本部分变量预测比用大样本全变量预测要重判八个多月!
当然,小样本的平均刑期也是真实的,甚至可以说,也是只有这三个情节案件的全样本。但问题是,根据这种样本进行预测所忽略的,理论上有可能是法律适用中的关键变量。其结果,既可能导致高估预测结果,也可能导致低估预测结果。不论高估还是低估,都是偏离。著名统计学家谢宇指出,如果在实际调查中只收集到y、x1和x2三个变量的数据,而忽略了实际回归模型中的自变量x3,则这种情况可能导致回归模型的参数估计值有偏。即使主要兴趣在于研究x1或x2对y的影响,忽略关键的自变量x3也会影响到对参数b1、b2估计的无偏性。这个道理从法理上说就是,所有交通肇事罪的法定要素都是由法律规定连接起来的一个有机整体,不能将各个要素之间的关系人为割裂开来看。且不说所有要素之间的组合可能多达数万种,就算得到数万的真实的刑期均值或模型,也很难说其预测结果体现了法律的完整意思。可惜,目前有些法律大数据应用仍未对此做出区分,没有意识到小样本预测的有偏风险。
也许有人会说,这个例子的因变量是连续变量,因而只适用于像刑期、损害赔偿额等法律后果的预测。而法律世界中,大量法律后果都是定类变量,如有罪还是无罪、此罪还是彼罪、是否构成侵权违约、胜诉还是败诉、是否属于防卫过当、是否赞成废除死刑等二分变量。这种二分变量只有定性上的差异,没有程度上的区别。
因此,对裁判预测而言,小样本的有偏风险不可避免,且可以得到控制。其实,统计学中的logistic回归分析就是一种对变量层次要求不高,因而对社会科学研究来说很好用的回归分析方法之一,它可以同时展开多个、多种自变量对一个二分定类因变量的统计分析。
的确,采用多元线性回归等分析方法分析二分的因变量,显然无法满足某些重要的统计假设而导致统计推断的严重误差和荒谬。但logistic回归分析允许多个多层次的自变量,如性别、年龄、地区、行业、文化程度、收入等,都可以同时进入分析过程,一次性地得到它们的共同作用结果,进一步的分析还能分出各自对因变量的作用力大小。所获结果之一叫做发生比,意思是自变量每上升一个单位,因变量结果出现的机会将是原来的多少倍。比如,被害人数每多一个,或者损失金额每上升1000元,胜诉(败诉)的机会将是原来的多少倍。重要的是,这种分析与上述多元线性回归分析在原理上没什么根本不同。既然如此,说法律世界不得不接受小样本预测的说法,是站不住脚的。在这个视角看来,与其说满足于小样本裁判预测是对法律领域特殊性的忽视,不如说是对基本量化分析原理和方法缺乏了解。