中外法学-新刊-详情

阅读PDF

罪刑相适应的尺度和算法

桑本谦，中国海洋大学法学院{教授}；王越，中国海洋大学法学院{副教授}

引言

假定有人餐后拒付餐费，在即将离开餐馆时被老板阻拦；为了逃脱，他拿起一个酒瓶打伤了老板（后经法医鉴定构成轻微伤）；老板随即报警，警方赶来将此人抓获。此案该如何处理？在绝大多数人眼里，无论事前强吃霸王餐，还是事后打人致轻微伤，都算不上多么严重的犯罪，大致属于治安管理处罚的范围。但要严格依法处置，上述违法行为却要受到非常严厉的处罚。《刑法》第269条规定：“犯盗窃、诈骗、抢夺罪，为窝藏赃物、抗拒抓捕或者毁灭罪证而当场使用暴力或者以暴力相威胁的，依照本法第二百六十三条的规定定罪处罚。”非法取财且使用暴力，构成转化型抢劫，[1]依法应以抢劫罪论处，定罪量刑都要保持一致（下文简称“同罪同刑”）。而一旦构成转化型抢劫，量刑起码要在三年以上。强吃霸王餐且事后使用暴力，完全符合转化型抢劫的构成要件。然而奇怪的是，为什么我们的道德直觉和法律规定的差距如此之大？是前者出问题了，还是后者出问题了？

《刑法》第269条之规定貌似稳妥，但难以完全驯服人们（包括法官）的道德直觉。本文第一部分的数据分析显示同罪同刑遭到了明显的司法抵制，法院对转化型抢劫的处罚实际上系统性地低于抢劫。考虑到数据分析仅以法院判决为样本，可以确认司法抵制的程度只会被低估而不会被高估。[2]第二部分的理论分析致力于揭示司法抵制的背景和原因。简单说，《刑法》第269条规定的同罪同刑属于立法失误，根源在于支配传统刑法学理论的形态学思维——即通过辨识违法行为的表面特征（“要件”）来判断行为的性质，然后根据行为的不同性质给出区别对待的方案。同罪同刑的理论根据，无非是两种犯罪的关键要件大致相同，都是“谋取财物+使用暴力”，且前者为目标，后者为手段；但这种形态学思维却导致立法者忽略了更深层次的区分因素，由于谋取财物和使用暴力的时间顺序不同，两种犯罪的不同受害人在控制人身伤害风险的能力和机会上存在着系统性差异。

形态学思维确实操作方便，但也不能忽视其代价——认知和决策容易出现错误和偏差。同罪同刑的错误，就类似于把海豚误认为鱼。形态学思维长期支配法学研究和法律决策并非偶然，其实所有领域都曾经历过类似的“知其然不知其所以然”的认知阶段。只要社会相对稳定，用以定义某个行为模式的要件组合就无需频繁修改，整套知识体系可以在长达数百年的时间里看上去比较整洁。但现代社会变化快，当棘手案件频繁涌现，不断冲击那些预设的要件组合之际，识别和比对要件的法律操作就会功能失灵；而一旦要件失灵成了常态，应对例外情形就只能分离出新的要件组合。虽说还有法律教义来打补丁，但若补丁太多，例外太多，理论就变得支离破碎，曾经呈现出的简洁性优势也会挥霍殆尽。更多的概念以及对概念的解释与日常语言渐行渐远，甚至蜕变为一些稀奇古怪的行话和黑话。

怎样对轻重不等的犯罪确定相应的惩罚是个古老的法律难题，被法学家们普遍认可的罪刑相适应原则只能提供模糊的指导。该原则并不追求绝对的正确（最优惩罚或最优威慑），而只关注比较意义上的合理性，但却完全符合人们的道德直觉，罪与刑之间的对称性经常被比喻为一杆称或一个天平，惩罚的严厉性被用以度量犯罪的严重性。解说该原则的一个经典比喻来自18世纪意大利法学家切萨雷·贝卡利亚，他用两条阶梯分别描述犯罪和惩罚的轻重，“罪刑相适应原则”意味着两条阶梯的顶端、底端和中间部分相互对应。[3]

到了上个世纪六十年代末，贝卡利亚的简陋比喻已经不能让经济学家们满意，加里·贝克尔（Gary S. Becker）最先为描述犯罪和惩罚的数量关系建构了精致的数学模型。模型的目标是寻求最优威慑，其基本思路是在犯罪的社会损失和防控犯罪的社会开支之间寻求均衡，以图最小化两种成本之和。[4]与罪刑相适应原则不同，最优威慑模型追求绝对的正确；但尴尬的是，这个精致的模型在法律决策中的表现不比罪刑相适应原则更加出色，它实际上无力为各种法律决策提供实质性的指导。原因很简单，针对任何一个犯罪或一种犯罪，微分求最优的数学公式都算不出确定的结果，需要处理的信息和数据无穷无尽，且模型中的绝大多数变量难以估算。显然波斯纳早在1985年就对此有所警觉，在那篇致力于解释刑法原则和教义的著名论文中，他突破了形态学思维进而揭示了法律的深层逻辑；但对于完成这个目标而言，简单的成本—收益分析就够用了，最优威慑模型实际上被束之高阁。[5]

放弃以寻求最优威慑为目标，能否建构一个可以描述犯罪和惩罚数量关系的替代性模型？本文第三部分朝这个方向做理论探索。得益于罗伯特·阿克塞尔罗德（Robert Axelrod）在上个世纪八十年代的演化博弈论研究，[6]以在计算机模拟竞赛中的优胜策略为基础，我们通过添加变量来建构一个可以较为精确地描述罪刑相适应的报应模型，以区别于贝克尔等人建构的最优威慑模型，这实际上回到了贝卡利亚的传统。我们希望报应模型可以为各种类型的法律决策提供更好的指导，从而避免诸如《刑法》第269条规定同罪同刑之类的立法失误。

一、数据分析：同罪同刑的司法抵制

如前文所述，刑法之所以将转化型抢劫与普通抢劫同罪同刑，原因是两种犯罪的构成要件大致相同。其隐含的形态学假设是：如果两种犯罪的构成要件大致相同，则针对两种犯罪的罪责评估和相应惩罚也应该大致相同；换言之，在司法实践中，在给定其他条件的前提下，转化型和普通抢劫的量刑结果不应该存在系统性差异。下文的数据分析致力于检验这一假设能否贯彻于司法实践，为此我们采用了配对分析中的广义精确匹配分析（CEM）来检验转化型属性对量刑的影响。

CEM分析的基本逻辑可以通过以下几个步骤来呈现。首先，对变量进行重新编码，粗化连续和多分类变量，[7]从而对难以精确匹配的变量进行粗化匹配；其次，以精确匹配算法为粗化后的数据在每个协变量上配对，剪除未配对的样本；最后，丢弃粗化后的数据，以匹配样本的原始值为分析依据，评估自变量对因变量的影响。[8]CEM以均衡协变量分布作为直接目标，不仅可以全面、直接地消除协变量分布的不均衡，而且无需进行降维处理，符合一致性原则，[9]可以有效减少因果推论的模型依赖性、降低处理效应的估计误差。广义精确匹配相较于其他配对分析方法的优势，已经在许多研究中得到证实，在多数情况下，其所生成的匹配数据集协变量分布均衡性更好，且样本数也往往更多。[10]下文将转化型抢劫和抢劫罪的样本分别归类为“转化型”和“普通型”。

（一）变量选择、粗化与匹配

根据各省人口比例对中国裁判文书网的抢劫罪一审判决书进行分层随机抽样，共形成2603个样本。其中，转化型样本376个，有期徒刑均值为49.2个月，缓刑比例为3.2%，罚金数额均值为8730元；普通型样本2227个，有期徒刑均值为63.2个月，缓刑比例为3%，罚金数额均值为5260.5元。（见表1）

　　表1全部样本中转化型与普通型抢劫的量刑结果比较

在评估转化型属性对量刑的影响时，我们把量刑结果分解为有期徒刑刑期、缓刑和罚金刑三个维度，分别考察转化型属性的影响。在混淆因素中，我们主要根据《刑法》和司法解释规定的三类量刑影响因素，来为转化型样本匹配相同或近似的普通型样本；由于抢劫金额变量的提取并不理想，部分裁判文书未记载具体金额，部分则未记载全部金额，难以对金额本身进行合理粗化，且其大部分信息可由“抢劫数额巨大”提供，因此将“抢劫金额”变量删除，保留“抢劫数额巨大”；而抢劫次数各样本均有记载，粗化标准统一，通过抢劫次数也可对样本进行更加精准的匹配，因此我们保留了“抢劫次数”变量，并将其粗化为1—2次、3—5次、6次以上三个属性。（见表2）

　　表2 变量体系

在随机抽样生成的原始数据集中，转化型和普通型抢劫的协变量分布呈现出较大差异。（见表3）总体而言，转化型抢劫的次数、金额、持枪率均少于普通型抢劫，未遂率则远大于普通型抢劫；转化型抢劫的犯罪人，前科、累犯率远高于普通型抢劫，也更不愿意自首（多数情况下也没条件）、坦白、当庭自愿认罪，认罪、悔罪态度、立功也不积极。可以说，转化型抢劫的犯罪损失低于普通型抢劫，再犯可能性则高于普通型抢劫。

　　表3全部样本中转化型和普通型样本的协变量频次比较表

采用广义精确匹配进行配对后，共有313个转化型、1341个普通型，总计63.6%的样本匹配成功。匹配后转化型和普通型样本的量刑结果差异发生变化：二者有期徒刑刑期的均值差距从14个月缩减至5.4个月；普通型抢劫缓刑比例下降至1.8%，转化型抢劫仍维持在3.2%；转化型抢劫的罚金数额从高出普通型抢劫3469.5元，变为低于后者903元。（见表4）各协变量的频次整体而言，趋向一致。（见表5）

　　表4 配对样本中转化型与普通型抢劫的量刑结果比较

　　表5 配对样本中转化型和普通型样本的协变量频次比较表

（二）均衡性检验

仅通过观察频次和量刑结果无法评估配对结果是否理想、协变量在两类样本中的分布是否均衡，还需进行专门的均衡性检验。如协变量分布越均衡，则配对后的转化型和非转化型样本就越相似，效应估计结果也就越接近真实。

在匹配后样本中，转化型和非转化型抢劫样本的经验累积分布函数（empirical cumulative density function）[11]曲线均趋向一致，黑线代表的处理组和灰线代表的控制组完美重合。多数协变量的标准均值误差（standardized mean difference，下称SMD）[12]均小于0.1，配对前分布差异较大的未遂、累犯、前科、抢劫数额巨大等情节均得到较好的平衡；只有抢劫次数变量的SMD稍高，但也在0.2以下，且在《刑法》上有更重要意义的“是否抢劫三次以上”变量的SMD也随之下降到0.1以下。因此，可以说经过广义精确匹配后，转化型和非转化型样本的协变量分布几乎不存在差异。

（三）缓刑、有期徒刑、罚金裁量中的效应估计

在较高的均衡性水平下，通过简单比较转化型和普通型抢劫的刑期均值、缓刑比例和罚金均数，即可推知转化型属性对量刑的影响；更为稳妥的方式是对匹配后样本进行回归分析，以进一步控制协变量对量刑的影响，提高效应评估的精确度，增强稳健性。

1.转化型属性与缓刑适用

卡方检验表明，两组样本的缓刑适用率不存在显著差异。Logistic回归分析进一步确证了该结论，以是否判处缓刑为因变量，以转化型属性和混淆因素为自变量进行回归分析发现，转化型属性的P值为0.5627，对缓刑判罚没有显著影响，既不会提高也不会减少缓刑适用率。（见表6）

　　表6缓刑裁量中的效应估计[13]

2.转化型属性与有期徒刑刑期

以有期徒刑刑期为因变量，以转化型属性和混淆因素为自变量进行回归分析发现，在其他条件一定的前提下，转化型属性可减少4.1个月的有期徒刑刑期。

　　表7 有期徒刑刑期裁量中的效应估计

3.转化型属性与罚金数额

以罚金数额为因变量，以转化型属性和混淆因素为自变量进行回归分析发现，在其他条件一定的前提下，转化型属性可减少约1036.9元的罚金数额。参考对全部样本的回归分析结果发现，在罚金刑判罚中，以往被认为对量刑有影响的重要性因素，例如持枪抢劫、在公共交通工具上抢劫、冒充军警人员抢劫、未成年人、限制行为能力、自首、坦白、累犯等均未表现出显著影响，转化型抢劫却表现出了稳定的作用力。

　　表8 罚金数额裁量中的效应估计

（四）数据分析结论

综合以上广义精确匹配分析结果，最终可以推断：转化型属性对缓刑适用没有显著影响，但在非缓刑案件中可减少4.15个月的刑期，在犯罪人未被没收财产的案件中可减少1037元的罚金，转化型抢劫与普通抢劫在司法实践中虽然同罪，但并不同刑。《刑法》第269条关于转化型抢劫与普通抢劫同罪同刑的原则遭到了明显的司法抵制。至少就这两种犯罪而言，相应的形态学假设——如果两种犯罪的关键要件大致相同，则针对两种犯罪的罪责评估和相应惩罚也应该大致相同——不能贯彻于司法实践之中。

二、理论分析：原因何在以及问题出在哪里？

既然同罪同刑原则遭遇司法抵制，那么问题究竟出在哪里？是法官的错误还是立法者的错误？下文将会论证，问题出在立法环节而非司法环节，同罪同刑原则属于典型的立法失误，而司法抵制则是法院系统对立法失误的下意识矫正和反弹，法官们的道德直觉在量刑时起到了缓冲器乃至防火墙的作用。立法失误的根源在于以要件识别为操作依据的传统刑法学理论，更深的根源则是支配传统刑法学的形态学思维。

（一）模拟犯罪过程

抛弃形态学思维，不再考虑构成要件，意味着我们需要通过模拟犯罪后果去评估罪责轻重。这不困难，要比较抢劫和转化型抢劫的罪责轻重，就不妨想象一下，受害人面对两种犯罪各有什么选择和后果。抢劫罪的受害人只有四个选项：顺从、不作为、逃跑、反抗。但任何一个选项都不能确保其人身安全。逃跑、反抗的风险不言而喻，但即使选择了顺从或不作为，也未必能全身而退，因为罪犯仍可能以暴力威胁，吓阻受害人报警或出庭作证，或强迫他交出更多财产。入户抢劫之所以重于拦路抢劫，就是因为后者的受害人很容易证明自己已经交出了全部财产，而前者的受害人却由于信息不对称而更可能遭受暴力。

同样是侵占财产，抢劫区别于盗窃的要点，就在于前者会造成人身伤害而后者只有财产损失。尽管抢劫不一定使用暴力，但我们不能事后根据罪犯是否以及在多大程度上使用暴力的事实来评估抢劫罪的轻重，而应回到事先的时间节点，去评估抢劫导致人身伤害的预期损失（相当于实际损失和伤害概率的乘积）。而就人身伤害而言，入户抢劫比之拦路抢劫，并非实际损失更大，而是预期损失更大。预期损失才是评估罪责轻重的绝对尺度，把握这一点，就不用推敲刑法学理论上的各种“法益”了。法律之所以对入室盗窃处以更严厉的处罚，就是因为入室盗窃比户外盗窃有更高的概率转化为抢劫，因而预期损失更大。

讨论转化型抢劫，必须考虑受害人控制风险的能力和机会，两者都会影响他遭受伤害的可能性，进而影响伤害的预期损失。不妨拿抢夺罪拿来做个参照。面对抢夺，只要受害人不反抗，其人身就是安全的，至多承受财产损失。其实前述强吃霸王餐的案件差不多就是如此。就预期伤害而言，与其说转化型抢劫更像抢劫，不如说它更像抢夺。只要受害人放弃反抗，不干预罪犯窝藏赃物或毁灭罪证，则无论他选择顺从、不作为还是逃跑，都可以避免人身伤害。转化型抢劫显然是一种比普通抢劫更安全的犯罪。尽管盗窃、抢夺、诈骗等前罪都可能转化为更严重的犯罪，但受害人通常拥有决定犯罪是否转化的机会和条件。刑法学家在解释同罪同刑原则时，用了“拟制”一词，意思是转化型抢劫因其关键要件与抢劫无异而被拟制成了抢劫，[14]但问题是，这种拟制忽略了罪犯使用暴力的时点差异以及由此给受害人带来的选择机会。

上述分析可以让我们初步了解，为什么法官对待转化型抢劫的态度系统性地区别于普通抢劫。法官当然懂得，无论根据法律，还是根据法学理论，转化型抢劫都应和普通抢劫同罪同刑。但在深入了解案件之后，法官的道德直觉就会被案件细节唤醒。道德直觉就像衡量罪责轻重的一杆称，在自由裁量的范围内，它可以独立于法律条文和法学理论而发挥作用。法律当然不会被抛在一边（倘若没有法律的约束，两种犯罪的量刑差异应该更加显著），但无论是法律条文，还是法学理论，都不能完全驯服法官的道德直觉。[15]从另一个角度讲，立法失误如同任何错误一样都会产生额外的成本，因而，哪怕只是出于控制成本的需要，纠正或减弱错误都是必然的选项。错误是难以坚持的，立法中的错误很难在司法过程中顽强地坚持下来。

《刑法》第269条引起司法抵触的问题肯定很早就反馈到了最高法。2005年的司法解释第5条做出规定：“行为人实施盗窃、诈骗、抢夺行为，未达到‘数额较大’，为窝藏赃物、抗拒抓捕或者毁灭罪证当场使用暴力或者以暴力相威胁，情节较轻、危害不大的，一般不以犯罪论处。”[16]简言之，只要转化型抢劫同时满足两个条件（一是赃款数额明显低于较大标准，二是伤害达不到轻微伤），就通常可以直接出罪。2016年的司法解释再次明确：“对于以摆脱的方式逃脱抓捕，暴力强度较小，未造成轻伤以上后果的，可不认定为‘使用暴力’，不以抢劫罪论处。”[17]尽管先后出台的两个司法解释放松了《刑法》第269条规定的同罪同刑，但如此解决问题非但不够彻底，反而制造了新的麻烦。

将转化型抢劫的下游区段以“情节显著轻微”为由直接出罪，如此处理相当于割掉了这种犯罪的尾巴，但抢劫罪的尾巴犹存，由此而生的量刑断裂就暴露出来了。当赃款数额即将达到较大标准或人身伤害即将构成轻微伤两个临界点时，就会和稍微重一点的转化型抢劫在量刑上呈现显著差异——要么与抢劫同罪同刑，要么则是直接出罪。这意味着转化型抢劫的量刑在出罪和三年有期徒刑之间出现了空档，而犯罪的严重程度却是逐渐过渡的。当与普通抢劫作比较时，转化型抢劫的量刑断裂就更加显著了。

为什么会出现这种情形？归根到底是因为，转化型抢劫原本系统性轻于普通抢劫，《刑法》第269条规定的同罪同刑属于系统性失误，而在现行立法的约束之下，司法解释却只能以“割尾巴”的方式对系统性问题做局部处理。不仅如此，考虑到前文的数据分析样本均取自两个司法解释出台之后，就有理由推测，倘若样本取自司法解释出台之前，则转化型抢劫和普通抢劫的量刑差异还会更加显著。

不过前文的分析也可能被质疑，理由是转化型抢劫从结果上看确实使用了暴力，而抢劫却未必使用暴力，这意味着受害人对罪犯窝赃、毁证或逃跑所采取的干预行为是个遴选机制，转化型抢劫就是被遴选出的后果严重的那部分犯罪。但若这个质疑逻辑可以成立，那么相反的理由也能讲得通，遴选机制本身就干预了原本只是盗窃、诈骗或抢夺的犯罪，所以被遴选出的恰恰是那些如果不干预就不会转化的犯罪。如何裁断这一争论？答案是要看时间节点。只有统一回到事先的时间节点（犯罪之前），对比才是有意义的。但不可否认，转化型抢劫在前罪之后、使用暴力之前还有一个值得观察的时间节点，正是这个时间节点可以将犯罪一分为二。

（二）默认数罪并罚

现行《刑法》第269条继承了1979年《刑法》第153条之规定，尽管历经半个多世纪已经固定为一种立法传统，但实际上针对转化型抢劫的处罚并非别无选择。除了与抢劫同罪同刑，还有三个备选方案：①构成另一罪行，量刑重于盗窃但轻于抢劫；②将事后使用暴力作为前罪的一个加重情节；③分别成立前罪（盗窃、抢夺或诈骗）和后罪（伤害或恐吓），然后数罪并罚。考察国外刑法，我们会发现上述四种方案均有对应。[18]而若忽略定罪只看量刑，则第①和第②种方案可以合并，因为量刑都在抢劫和盗窃之间。尽管数罪并罚的量刑结果也在这个区间，但它却代表了一种新思路——将犯罪一分为二。

实际上，第①②种方案最终都是由法律规定一个量刑区间——重于盗窃但轻于抢劫，再由司法者酌定罪责轻重。但如此处理仍美中不足，因为转化型抢劫的大部分量刑区间与盗窃、抢劫的量刑区间是重合的（除了靠近起点和终点的一小段），法官的自由裁量权因此就有了过度扩展之嫌。总之，就合理量刑的目标而言，这两种方案虽然都没有制造障碍，但也都没能做出限制或提供指导。

第③种方案包含了进一步优化的可能性。转化型抢劫天然就有前罪和后罪之分，两罪之间还有个明显的时间界限，这意味着前罪造成的财产损失和后罪造成的人身伤害是天然可分割的。在这种条件下，立法思路的默认选择应该是数罪并罚。普通抢劫之所以不能数罪并罚，只是因为暴力和取财的时间界限模糊不清，财产损失和人身伤害也不容易分割开来。最典型的例子是，抢劫巨额财产的犯罪就不一定造成人身伤害，他可能只是以暴力相威胁而并未真正使用暴力，对这种犯罪没法采取数罪并罚。倘若犯罪损失不可分割，就只能将不同行为合并为一罪，实属迫不得已。只要数罪并罚被默认为优先选项，而转化型抢劫分明可以数罪并罚，却偏要合并为一罪处理，那么除了形态学思维的惯性使然，我们实在找不到其他理由。

在传统刑法学上，一罪与数罪是个让人头疼的问题，刑法学为此创造了丰富的词汇，诸如牵连、吸收、竞合以及想象的竞合等等，不一而足。把这些词汇混杂在一起就成了一锅粥，让处理案件的法官和应付司法考试的考生苦不堪言。其实只需掌握一个简单的原则就足够了——刑法以数罪并罚作为默认原则，除非损失在时间上或空间上无法分割而必须算总账。也就是说，区分一罪和数罪的标准，既不看行为是否可分割，也不问目的是否可分割，而是只看损失是否在时间上或空间上可分割。[19]原因非常简单，在同一时空点可分割的损失可以单独论罪，没必要混在一起，除非这些损失属性相同，累计之后成立累犯、惯犯、连续犯、职业犯、营业犯或多次犯。

三、报应模型：一个替代性理论

刑法学的核心技术就是怎样对轻重不等的犯罪规定恰当的惩罚。但如本文开篇所述，这个问题至今还没有令人满意的答案。无论是被法学家认可的罪刑相适应原则，还是经济学家们建构的威慑模型，都各有其缺陷。前者过于简陋，后者精致有余却难以操作。社会福利最大化或社会成本最小化的经济学目标看似清晰，但难以承受的巨大计算量却必将法律决策者的头脑引向一团混沌。好在古今立法者从未有过追求最优威慑或最优惩罚的野心，否则世界上可能至今还没有法律。

是否存在一条两头兼顾的中间道路？——既能揭示评估罪责轻重的基本尺度，又能操作方便。本文作者之一曾经做过一些探索，为描述罪刑相适应原则建构了一个简单模型，模型容纳了作案可能性、作案成功率、犯罪实际损失、抓获概率等几个重要变量。尽管该模型在司法和立法两个层面都被检验为富有成效，但仅限于经验层面，尚未在理论上解释将上述变量组合在一起的合理性。[20]下文的讨论将会延续这一探索，致力于为这条中间道路的可行性寻找坚实的理论基础。

要用简单的数学呈现惩罚的尺度和算法，我们不妨回到贝卡利亚。两条阶梯的比喻虽然简陋，但可以作为一个讨论的起点。这个比喻已经隐含了与犯罪和惩罚相关的几个重要变量：①两条阶梯的长度分别表示犯罪和惩罚的幅度；②阶梯上的不同位置表示特定犯罪和特定惩罚的严重程度；③从阶梯的一个位置上升或下降到另一个位置的距离表示犯罪和惩罚的变化幅度，两者的比率可以表示惩罚的边际威慑——一种以较轻犯罪取代较重犯罪的激励。尽管这些变量并没有被贝卡利亚解析出来，但两条阶梯肯定在他心中构成了某种几何形状（大约是三角形、梯形或矩形吧），否则他不会提到几何学。[21]只可惜贝卡利亚没能真正把几何学作为分析工具，否则他设想的两条阶梯就可以被替换成坐标系中的横轴和纵轴，进而用一条上升的直线或曲线来描述犯罪和惩罚之间的函数关系了。

（一）返还法则

借助平面直角坐标系，罪刑相适应原则可以被更精确地描述。设惩罚的严重程度为Y（相当于惩罚给犯罪制造的损失），犯罪的严重程度为X（相当于犯罪给受害人制造的损失），则函数Y=f（X）可描述犯罪和惩罚之间的数量关系，我们将其定义为“罪刑函数”。函数图像是一条上升的直线或曲线，但不会无限延伸，因为犯罪和惩罚的幅度各有其边界。遗憾的是，贝卡利亚没有比较两条阶梯的长度，实际上犯罪阶梯的长度远大于惩罚阶梯的长度，即犯罪幅度远大于惩罚幅度，这会让函数图像发生一些复杂的非线性变化。但现在，我们的讨论从最简单的问题开始：假定惩罚幅度等于犯罪幅度，那么罪刑函数应该是什么样子？

我们首先会想到一个最简单的数学公式：Y=X，函数图像是一条斜率为1的线段，它看上去有种不言而喻的美感。斜率为1意味着惩罚的变化可以全程且等量跟踪犯罪的变化，在直线的每个区段，惩罚的变幅都能等于犯罪的变幅，罪犯每增加一分罪行的严重性，惩罚都可以等量增加惩罚的严重性。函数图像的对称性还会让人联想到一面镜子，《汉穆拉比法典》中几个条文确实就像镜子：打掉别人牙齿的人也要被打掉牙齿（第200条），挖掉别人眼睛的人也要被挖出眼睛（第196条），打断别人骨头的人也要被打断骨头（第197条）。这些条文表达了同态复仇的理念，伤害和惩罚不仅在程度上相等，而且在形态上也完全一致。但当惩罚演变为一套标准化体系之后，它就不可能完全复制高度多样化的犯罪形态了，因此关于这个对称公式的更好比喻还是（正义女神手里的）天平。在这个比喻里，惩罚被抽象成了度量犯罪轻重的尺度。

但语言的表达仍然是具象的，《圣经》就没有采用数学公式，而是把法典中的条文简化为：“以牙还牙，以眼还眼。”[22]在很多人的印象里，诸如此类的表达都是很凶狠的策略。甘地就有这样的错觉，他曾说过“以眼还眼只会导致一个全盲的世界”（这话还印在了电影《甘地传》的海报上），以此类推“以牙还牙只会导致一个没人有牙的世界”。但只要考虑到人们有推测后果的能力，情况就变得乐观了。如果一个人能够预测到打掉别人牙齿或挖掉别人眼睛，自己也会遭受同样的惩罚，那么他会选择克制。同态复仇可以教会每个人掌握一条简单的生活指南：“如果你想别人怎样对待你，你就怎样对待别人；如果你不想别人这样对待你，你也不能这样对待别人。”巧合的是，这句话恰好就是霍布斯概括的自然法精神；[23]更巧的是，前半句话出现在《圣经》里，后半句出现在《论语》里。但阿克塞尔罗德可以解释为什么这并非巧合，尽管他的解释不是立足于数学，而基于计算机模拟竞赛。[24]

在博弈论中，“以牙还牙，以眼还眼”是个著名的策略，它有个更通用的名称“Tit for Tat”, 缩写为TFT。在“囚徒困境”的背景中，TFT策略被定义为：在第一个回合选择合作，在后续的回合选择对手在上一个回合的选项。[25]上个世纪八十年代，阿克塞尔罗德以“囚徒困境”为背景设计了两场计算机竞赛，用以模拟演化和生态竞争。TFT策略在两场比赛中都出人意料地赢得了冠军，竞赛显示它在多种复杂环境中都有很强的进化适应性。TFT策略可以在种群中成功扩散，直到覆盖整个种群时，相互合作就可以终结相互背叛，TFT策略由此升级为TFT法则。借助这两场计算机模拟竞赛，阿克塞尔罗德论证了一个挑战霍布斯的命题：文明可以发生在一个没有公共权力的环境之中。[26]

　　图1

为了契合法律语境，我们将博弈论中的TFT法则更名为“返还法则”。作为刑法古老源头的同态复仇只是返还法则的一个局部呈现。不要忘记返还法则的数学表达是Y=X，函数图像是一条斜率为1的直线。如果我们把身体伤害延伸到财产伤害，把身体惩罚延伸到财产惩罚，那么民法上的等价赔偿和刑法上的同态复仇可以共享这条直线。这似乎意味着刑法和民法有个共同的源头，民刑同源于返还法则。

阿克塞尔罗德以“囚徒困境”为背景设计的计算机模拟竞赛解释了返还法则的进化适应性。当返还策略覆盖整个群体，每个玩家都成为返还者时，玩家之间就一直能够保持相互合作的关系，背叛行为不会发生，这意味着不会发生诸如违约、侵犯和犯罪之类的伤害行为。但上述结论隐含了几个重要的假设：①忽略噪声，即假定玩家不会出错，它在每一个回合都会忠实执行既定的策略；②合作与背叛都没有时间尺度，即玩家不能事先预测，只能等到结果呈现之后，才能分辨对手选择的是背叛还是合作；③两个选项都是透明的，即选项本身不能隐藏，只要结果呈现，玩家就能准确分辨对手选择的是背叛还是合作。

但只要放弃上述假设，并把背叛扩展为伤害行为，那么返还法则就必然要引入伤害行为的统计频率、伤害成功率、伤害实际损失以及伤害识破概率等变量。限于篇幅，本文并不具体呈现这一演化过程，但可以肯定的是，返还法则的演化并不会真正偏离那条斜率为1的直线，甚至偏离本身也是一种回归。

（二）神经元模式

返还法则的函数图像确实简洁优美，但它只适用于犯罪幅度和惩罚幅度大致相等的时候。事实上在任何社会，惩罚幅度都远远小于犯罪幅度。且不说现代刑法是死刑封顶，即便古代刑法保留了酷刑，罪犯的身体也只能承受有限的折磨，而相比之下犯罪的空间却广阔得多。中国有个成语叫“罪该万死”，它一直被用来谴责罪行太严重，但现在我们知道它隐含的另一层意思是抱怨惩罚幅度太小以致没有与这种严重犯罪相称的同样严重的惩罚。

假定最严重的罪行是连环杀人，连环杀手的极限罪行是杀死50个人（实际上远远不止）, 那么在死刑封顶的条件下，犯罪幅度就是惩罚幅度的50倍，即犯罪阶梯是惩罚阶梯的50倍长度。切换到平面直角坐标系，横轴上线段的长度就是纵轴上线段长度的50倍，罪刑函数图像因此被压缩在一个扁平的矩形之内。此时，如何处理犯罪与惩罚之间的数量关系？或者说，罪刑相适应原则会发生什么变化？

我们首先会想到“比例尺模式”。地图就采用了比例尺模式，将真实的地貌同比例缩小到一张纸上。既然犯罪幅度是惩罚幅度的50倍，那么我们能否按1∶50同比例缩小所有犯罪的严重程度从而确定相应惩罚的严重程度呢？答案当然是不能，因为这会带来两个问题：一是太轻的惩罚会削弱其威慑效果；二是惩罚的变幅太小会削弱其边际威慑效果。[27]惩罚的威慑效果旨在减少潜在犯罪的数量，惩罚的边际威慑可以鼓励罪犯以轻罪取代重罪。惩罚的幅度（Y值）决定其威慑效果，惩罚变幅和犯罪变幅的比例（函数图像的斜率）决定其边际威慑效果。比例尺模式不仅大大降低了Y值，而且大大降低了函数图像的斜率（只有0.02）。

我们可以把惩罚幅度（纵轴上的一条线段）想象成一把尺子，这把尺子用以测量犯罪的轻重。尽管理论上说，再短的尺子也有无穷无尽的刻度，但在实际操作中尺子太短确实会限制刻度的数量，刻度因此成为一种稀缺资源。以刑法而论，从轻微的拘禁到最严厉的死刑通常不过几十个刻度而已，因为监禁的量刑不会精确到天数或小时。如果函数图像是一条直线，那么在惩罚刻度有限的条件下，较大的斜率很快就会耗尽惩罚的刻度，让直线迅速冲顶，此时边际威慑失灵。虽然较小的斜率会让惩罚在更大的区间跟踪犯罪的轻重变化，但由于惩罚的变幅总是小于犯罪的变幅，所以惩罚的边际威慑效果就在更大的区间被稀释了。

既然“比例尺模式”行不通，除此之外还有其他的设计思路吗？答案是有，那就是“神经元模式”。纸上的地图采用了比例尺模式，但我们头脑中的地图却经过了神经元的改造，是一种“主观地图”。主观地图的分辨率是不均匀的，和我们生活的城市相比，那些和我们关系不大的地区在主观地图中的分辨率就很低，南极大陆或格陵兰岛甚至是一片空白。主观地图之所以采用歧视策略，是因为我们的大脑无力跟踪全部地图的所有细节。

人体对外部世界的刺激会做出反应，反应强度的变化会跟踪刺激强度的变化——刺激变强，反应也变强；刺激变弱，反应也变弱。但反应幅度远远小于刺激幅度，反应变幅也远远小于刺激变幅。这很类似于罪刑相适应，也说明人体更早遇到了类似难题。人体的反应强度最终还原为神经元的放电率（可以是单个神经元细胞的放电率，也可以是一组神经元放电率的加权函数），神经元的放电率以每秒的动作电位数计，通常在0~100赫兹，但永远不会超过1500赫兹。放电率的变幅限定了神经元的编码刻度，我们因此可以把神经元的反应幅度想象成一把尺子，尺子上的刻度如此有限，却要记录物理世界中动辄跨越几个甚至十几个数量级的刺激变化。不过人体神经元更早演化出了高效节能的应对方案。

神经元的编码刻度有限，但刻度的分布采用了歧视策略，刻度被不均匀地分布于物理刺激变化的不同区段——我们姑且大致分成下游、中游和上游三个区段。下游的刺激变化（比如一只飞蛾由远及近飞过来的音量变化）不会对有机体的生存制造明显的威胁，神经元不值得为这些无关紧要的刺激变化消耗太多的刻度；虽然上游的刺激变化（比如一道闪电从弱到强所带来的光线强度的变化）会威胁有机体的生存，但这是有机体无力控制的风险，神经元跟踪上游的刺激变化同样没有多大意义。只有中游的刺激变化（比如一头野猪的嚎叫声的变化或一堆篝火的光亮的变化）值得神经元紧密跟踪，因为敏感追踪这一区段的刺激变化可以显著提高有机体的生存概率。神经元的编码方案就是压缩上游和下游的刺激变化，把更多的刻度消耗于中游，有机体的反应因此可以既节能又高效。举个例子，只要你在树荫里走到阳光下，光线强度就在短短几秒钟内提高了6个数量级（上百万倍），但在我眼里，你只是亮了一点点。如果不是神经元压缩了光线强度的变化，你看上去就应该闪闪发光。[28]

惩罚轻重跟踪犯罪轻重的变化没有采用“比例尺模式”，而是采用了“神经元模式”。惩罚的刻度的分布同样采取了歧视策略，不均匀地分布于犯罪变化的不同区段。下游区段和上游区段的犯罪变化都不值得消耗太多的惩罚刻度，所以，从盗窃一根柴草到盗窃一捆柴草在惩罚上没有明显的区分，从贪污300万元到贪污30亿元在惩罚上也没有明显的区分。前者不难理解，因为下游区段的轻微违法行为不值得启动昂贵的司法程序和执法程序，更不值得区分轻重，但要说到惩罚同样不能敏感追踪上游区段的犯罪轻重变化，就多少有点奇怪了。

这笔账其实不难计算。下游区段的轻微违法行为虽然数量庞大，但单次违法造成的损失微不足道；而上游区段的重罪虽然损失非常高昂，但非常严重的罪行却是极其罕见的（犯罪是有门槛的，重罪的门槛更高）。同类犯罪的损失总额相当于数量和损失的乘积，因而同类犯罪的损失总额在不同区间会呈现出一条钟形曲线，中游区段的犯罪会造成更大的损失总额。惩罚跟踪犯罪轻重变化的歧视策略要求它在中游区段花费更多的刻度。

上述分析意味着，罪刑函数曲线的下游区段和上游区段的斜率较小，消耗的惩罚刻度较少；而中游区段的斜率较大，消耗的惩罚刻度较多。曲线一旦上升到惩罚线段的终点（这是死刑的位置）就几乎与横轴平行了，此时斜率趋近于零，惩罚刻度被用尽，边际威慑失灵。即使罪行继续加重，惩罚也只能保持不变。

在一些废除死刑的国家，监禁期限可以被无限延长，重罪可能被判处监禁几百年甚至上千年，但超出剩余预期寿命的监禁不过是名义刑而已。古代法律还保留了酷刑，酷刑的目标就是增加惩罚的刻度，使罪刑函数曲线在死刑之上的一段区间还能保持显著的斜率。[29]

　　图2

在x₁往左和x₂往右的区域，同类犯罪的损失总额变小。

　　图3

在x₁往左和x₂往右的区域，由于同类犯罪的损失总额变小，所以曲线斜率变小，边际威慑不敏感。

无论是比例尺模式，还是神经元模式，压缩都是一个关键词，犯罪幅度肯定要被压缩在一根短得多的度量尺度之中。更重要的是，压缩的观念还会提示我们，为轻重不等的犯罪确定合理惩罚的关键，不是寻求最优，而只是正确根据犯罪轻重正确排序。只要犯罪幅度被压缩到一定程度，则实际上只需排序正确，就可以把决策误差控制在非常小的程度，而无需计算出确定的惩罚值。当然，我们需要一个比较犯罪轻重的尺度。

（三）国家的算计

代表国家意志的法律怎样惩罚轻重不等的犯罪行为？贝克尔的回答是，应该按照社会成本最小化的逻辑寻求最优威慑；而我们的回答是，法律惩罚犯罪的逻辑依然要服从以返还法则为基础的罪刑相适应原则。没有国家的算计，只有代表国家意志的立法者的算计。

法律先于法学，诸如违约、侵权、犯罪以及民法和刑法之类的概念都是法学家后来创造的，而在古代立法者的头脑里，只有轻重不等的伤害和轻重不等的惩罚。惩罚的依据不是专业化的法学知识或法学理论，而是彼时彼地的人们共享的道德直觉。人类最基础、最原始的道德直觉就是返还法则。[30]但如前文所述，返还法则直接支配我们道德直觉的条件非常苛刻，它至少需要：①伤害后果已经发生或事先看伤害可能性和伤害成功率均为1;②识破概率达到1。[31]现代法律中只有违约和侵权能够大致满足这些条件，正因为如此，法律对违约和侵权的惩罚是“损一赔一”，仍然遵循返还法则。而对于绝大多数犯罪行为，返还法则是没法直接适用的。当上述条件不能满足，即当引入时间尺度和信息成本的变量之后，返还法则以及人类道德直觉就要做出适应性调整。

从法律决策者的视角，具体到某个犯罪时间窗口，犯罪的预期损失（ELc）相当于犯罪可能性（Fc）、作案成功率（Pc）和犯罪实际损失（Lc）的乘积，即ELc=Fc×Pc×Lc。而从潜在罪犯的视角，惩罚的预期损失（ELp）相当于惩罚的实际损失（Lp）和惩罚概率（Pp）的乘积，即ELp=Pp×Lp。按照返还法则，惩罚的预期损失和犯罪的预期损失应该保持对等，即ELc=ELp，或Pp×Lp= Fc×Pc×Lc。由此，我们可以获得一个关于罪刑相适应的简洁公式：

　　Lp=Fc×Pc×Lc÷Pp

不过严格说来，这个公式并不正确，因为公式成立的前提是令ELc与ELp相等，但除非等价惩罚（即罪刑函数图像的斜率k为1），否则两者并不相等。为了修正数学公式，我们需要添加一个变量“总斜率”（Tk）, Tk表示函数曲线上一个特定点连接原点的直线斜率，即（ELp-ELc）。Tk没有操作意义，添加它只是为了让公式保持正确（实际上变成了一个恒等式）。修正的数学公式为：

Lp=Fc×Pc×Lc×Tk÷Pp

尽管恒等式没有意义，但将恒等式分解之后，忽略不可计算的部分，可计算的另一部分就有了意义。这个公式可以描述罪刑相适应原则的基本算法，它是从返还法则推演出来的。我们将其定义为关于犯罪和惩罚的“报应模型”，以区别于贝克尔开创的“最优威慑模型”。报应模型并不完美，但也恰恰因为不完美，可以为持续的优化和演化提供空间。更何况，即使模型有缺陷，只要因模型缺陷而导致的决策误差小于因没有模型而导致的决策误差，那么模型的功能就依然值得肯定。况且只要我们清楚报应模型的缺陷在哪里，就能懂得在使用模型时怎样克服它的缺陷，或把缺陷控制在合理的限度。

1.模型只在比较意义上适用

报应模型很难计算出确定的结果，但模型中的变量可以在比较意义上使用。在惩罚幅度远远小于犯罪幅度的条件下，对于法律决策者而言，将决策目标设定为安排好不同犯罪的轻重排序，要比致力于为特定犯罪寻求最优惩罚更有系统性意义，也更现实；而报应模型恰好善于处理此类问题。许多刑法教义可以在报应模型中获得清晰简洁的解释，比如为什么故意相对于过失、蓄谋相对于冲动、忏悔相对于冷漠、累犯相对于初犯、惯犯相对于偶犯、普通人相对聋哑人、成年人相对于儿童和老人，即使犯下同样的罪行，造成同样的危害后果，前者都要受到更严厉的处罚？答案是前者的犯罪可能性更高、作案成功率更大且破获概率更低。

2.模型中的变量通常只是部分使用

当模型只在比较意义上使用时，就会大大降低计算量，并不需要按模型计算出一个精确的结果。事实上就某个具体案件或某类具体犯罪而言，总有些变量是不得而知甚至无法比较的。但Fc×Pc×Lc÷Pp中的任意1个变量或任意2个、3个变量的组合，都可成为比较罪行轻重的依据。其中一个变量不得而知或不可比较，并不影响其他变量的功能。比如，侵占罪之所以从盗窃罪中分离出来，就是因为前者的抓获概率趋近于1，但除抓获概率之外的其他变量是不可比较的。再如，把过失犯罪和故意犯罪区分开来，是因为后者犯罪可能性更高、抓获概率更低且/或作案成功率更高，而犯罪的实际损失是不可比较的。刑法上区分很多不同类型的犯罪，罪责评价指数就是区分的依据；如果两种犯罪在罪责评价指数上看不到系统性的差别，则理论上就没有区分的必要。如前文所述，法律之所以设置民事和刑事两套程序来分别对付民事违法和刑事犯罪，最重要的区分根据就是破获概率。

3.受害人的潜在干预

犯罪是否发生、是否成功，损失有多大以及是否会被抓获，不仅取决于犯罪行为，而且与受害人的潜在干预高度相关。同样是故意伤害，伤害未成年人就比伤害成年人要受到更严厉的处罚，因为前者缺乏防控犯罪的能力，这会使伤害更容易成功，且一旦成功，损失也更大。同样的原因可以解释为什么强奸幼女要比普通强奸的罪行更加严重。如前所述，抢劫之所以不同于抢夺，原因就在于抢夺的受害人更容易控制人身伤害的风险——面对抢夺犯，受害人只要放弃反击就足以保证人身安全，损失的只是财产；而面对抢劫犯，受害人放弃反击却不见得能免于人身伤害。在这个意义上，转化型抢劫其实更近乎抢夺，而不是更接近于抢劫。

4. Tk的功能是简化计算

如前文所述，总斜率不是定量而是变量，而且是个不可能被计算出来的“幽灵变量”。尽管Tk是变化的，ELp与ELc的比例不可能固定不变，但至少在一段很小的区间内，两者的比例可被视为大致稳定，Tk可被近似为一个定量。除了让数学公式保持正确，Tk还有个重要的功能就是简化计算。难以计算甚至难以观察的变量统统被压缩进了这个幽灵变量，这就为以乘除法替代微积分创造了条件。

基于上述几条应用说明，可进一步分析为什么转化型抢劫不应和普通抢劫同罪同刑。与普通抢劫相比，转化型抢劫在上述几个指标上都呈现出系统性差异。首先，转化型抢劫很难再犯——即便潜在罪犯选择继续作案，也很难同时具备转化条件，因而总体上的犯罪统计频率应该显著低于普通抢劫；其次，由于受害人实际上可以决定犯罪是否转化，因此抢劫既遂的概率应该低于普通抢劫；最后，在受害人有机会干预犯罪过程的条件下，转化型抢劫的侦破概率肯定会显著高于普通抢劫。[32]综合而论，即使事后看来特定转化型抢劫造成的损失和抢劫无异，事先看来也属于较轻的犯罪。

四、结语

以返还法则为基础，我们建构了描述罪刑相适应原则的报应模型，以区别于经济学家们建构的最优威慑模型。这实际上是回到了贝卡利亚的传统，且立足于阿克塞尔罗德的计算机模拟竞赛。罪刑相适应的操作难题是惩罚的幅度远远小于犯罪的幅度，而我们解决难题的思路恰恰是利用了难题本身的性质。在惩罚的变化不能全程跟踪犯罪变化的约束条件之下，要为法律决策者建构有用的模型，就不必追求最优威慑，只需对轻重不等的犯罪正确排序，就能把决策误差控制在可承受的程度。当然，这需要解析出那些评估罪责轻重的主要操作指标，包括但不限于犯罪的统计频率、作案成功率、案件侦破率以及犯罪的实际损失。

与最优威慑模型相比，报应模型与各国刑事法律制度以及各种法律决策都有更高的拟合度。这不是因为报应模型更正确，而仅仅是因为它更简洁，并且同样是为了追求简洁，模型的逻辑本身就不那么正确。在法律的世界里，没有最优，只有更优。有缺陷的模型和有缺陷的法律制度是可以搭配的，缺陷为持续的优化和演化创造了空间。报应模型的计算目标虽然保守，但很现实。而相比之下，最优威慑模型就显得过于雄心勃勃了，它追求一步到位，但庞大的计算量最终会挫败法律决策者的头脑。如果模型消耗的计算量超过了决策者承受的极限，再正确的模型也只能给出一条死路。衡量模型价值的标准是功能，而不是它是否正确或是否有缺陷。

社会科学的模型不同于自然科学的模型。后者服务于实验的操控者，而前者服务于“实验”中的行动者。穷尽抛物线运动中的所有变量，有利于操控者实现其预设的目标；而穷尽最优威慑模型的所有变量，却会让制度中的行动者和决策者无所适从。就像供需模型帮不了企业家决定其商品的价格，或者边际最优化模型帮不了企业家决定其生产规模，最优威慑模型也不能帮助法律决策如何惩罚违法行为。这些看上去十分漂亮的模型之所以帮助不了模型中的决策者，是因为建构模型采用了上帝视角，也许只有上帝才能一步到位地计算出某种商品的最优交易价格、某个企业的最优生产规模以及针对某种犯罪的最优惩罚。

但与罪刑相适应的传统解说相比，报应模型在解码人类的道德直觉方面更为成功。道德直觉就像一杆天平，能衡量出不同伤害行为的轻重。但这经常是个下意识的计算过程，大脑不能清醒地觉察，语言也很难清晰地描述。把这些不可度量的描述性概念置换为可以度量的变量，就可以在很大程度上缓解上述问题，由此克服形态学思维的先天不足。就法律决策而言，我们主张摆脱形态学思维，从“要件识别”转向“变量评估”。尽管形态学思维有统计学意义上的合理性，但却难以避免诸如《刑法》第269条在司法实践中所遭遇的要件失灵。倘若没有这种从“要件识别”到“变量评估”的方法论转向，我们不可能发现因强吃霸王餐而引发暴力的案件其实更接近于抢夺，尽管它看上去更像抢劫。更不可能发现转化型抢劫整体上是一种比普通抢劫更安全的犯罪，量刑应该系统性地轻于普通抢劫。

此外不可否认，与最优威慑模型相比，报应模型的最大缺陷是忽略了惩罚成本的变量。当惩罚成本过于高昂时，受害人放弃惩罚并非不理性，但这不会改变他对加害行为的轻重评估。尽管人类道德直觉就是刑法的初始立法依据，但理性的立法者不会忽略惩罚成本的约束。如果惩罚成本远远超过了犯罪损失，那么将其排除在刑法管辖范围之外就是合理的选择。[33]而在忽略成本约束的报应模型中，诸如此类的法律现象均无法获得完美的解释。

（责任编辑：高薇）

【注释】

[1]对《刑法》第269条拟制的抢劫罪，有学者称之为“转化型抢劫”，也有学者称之为“事后抢劫”，司法实践中一般使用“转化型抢劫”的表述，本文沿用这一表述。

　　[2]倘若上述强吃霸王餐之类的案件被公安机关直接以行政处罚结案，我们就收集不到这个样本。

　　[3]参见（意）切萨雷·贝卡里亚：《论犯罪与刑罚》，黄风译，北京大学出版社2014年版，第21—23页。

　　[4]Gary S. Becker, “Crime and Punishment: An Economic Approach, ” Journal of Political Economy, Vol.76, No.2, 1968, pp.169-217.

　　[5]Richard A. Posner, “An Economic Theory of the Criminal Law, ” Columbia Law Review, Vol.85, No.6, 1985, pp.1193-1231.

　　[6]Robert Axelrod, The Evolution of Cooperation, New York: Basic Books, Inc., 1984.

　　[7]例如，将包括文盲、小学、初中、高中、大学五个属性的受教育程度变量粗化为文盲、非文盲两类；将连续变量人均月收入粗化为5000以下、5000—10000、10000以上三个水平等。

　　[8]See Stefano M. Iacus, Gary King and Giuseppe Porro, “Causal Inference without Balance Checking: Coarsened Exact Matching, ” Political Analysis, Vol.20, No.1, 2012, p.8; Gary King, Richard Nielsen, Carter Coberley, James E. Pope and Aaron Wells, “Comparative Effectiveness of Matching Methods for Causal Inference, ” unpublished manuscript, Institute for Quantitative Social Science, Harvard University, Cambridge, 2011, pp.4-5.

　　[9]作为反例，在倾向得分匹配分析方法中，研究人员将研究对象在多个变量上的差异下降到倾向值得分这一个维度，以倾向值作为测量两个对象近似性的根据，其数据空间和分析空间未达到一致。

　　[10]Iacus et al., supra note [8], pp.8-10, 13-14.

　　[11]e CDF在配对分析中可用以评估某协变量整体（而不仅是其均值或是方差）分布的均衡性，是常用的均衡性检验指标。在e CDF图中，X轴表示协变量的值，Y轴表示等于或小于该值的样本比例；黑色线代表处理组，灰色线代表控制组。经配对分析后，当两条线更趋向重叠时，表明样本的均衡性得到改善；当两条线完全重叠时，表明样本的均衡性较为理想。

　　[12]标准均值误差，是指两组估计值的均数差值除以平均标准差，可用以描述不同组之间的差别。

　　[13]由于在配对分析后进行回归分析时，除转化型属性以外，其他混淆因素（例如累犯等）的系数并无意义，不反映因果关系，对相关关系的拟合也并不可靠，本文也不再予以报告。See Daniel Westreich and Sander Greenland, “The Table 2 Fallacy: Presenting and Interpreting Confounder and Modifier Coefficients, ” American Journal of Epidemiology, Vol.177, No.4, 2013, pp.292-298.

　　[14]为证成转化型抢劫可拟制为抢劫，学者们提出了前者是为“强行夺取返还请求权”，或者“强行确保对财物的稳定占有”等学说，但均存在较大缺陷。日本学者桥爪隆就意识到了这一点，参见（日）桥爪隆：“论事后抢劫罪”，王昭武译，《法治现代化研究》2019年第5期，第188—190页。

　　[15]确有不少法官明确以转化型为从轻理由的案例，例如山西省山阴县人民法院（2018）晋0621刑初103号刑事判决书，山东省莱西市人民法院（2015）西刑初字第761号刑事判决书，山东省临邑县人民法院（2015）临刑初字第111号刑事判决书，山东省平度市人民法院（2015）平刑初字第16号刑事判决书等。

　　[16]2005年最高人民法院《关于审理抢劫、抢夺刑事案件适用法律若干问题的意见》。

　　[17]2016年最高人民法院《关于审理抢劫刑事案件适用法律若干问题的指导意见》。

　　[18]各国刑法中描述的事后抢劫行为略有不同，例如德国、日本、意大利、奥地利、韩国等国多将前行为限定为盗窃，我国台湾地区则为盗窃或抢夺（具体可参见刘明祥：“事后抢劫问题比较研究”，《中国刑事法杂志》2001年第3期，第54—61页）。但是除了以上细节上的差异以外，各国均将转化型抢劫限定为罪犯被动使用暴力的情形，隐含的前提是受害人对其窝赃、逃脱和毁灭罪证的犯罪后续行为进行了实质性的干预。

　　[19]刑法中也有根据损失区分罪数的类似观点，即主张应以侵害的法益数量评价该行为构成几个犯罪；当一个犯罪的保护法益为复数时，侵害该法益的行为仅成立一罪。参见储槐植：“论罪数不典型”，《法学研究》1995年第1期，第71页；张明楷：“罪数论与竞合论探究”，《法商研究》2016年第1期，第128页。

　　[20]参见桑本谦：“从要件识别到变量评估：刑事司法如何破解‘定性难题’”，《交大法学》2020年第1期，第29—46页；以及桑本谦：“如何完善刑事立法：从要件识别到变量评估（续）”，《政法论丛》2021年第2期，第39—49页。

　　[21]贝卡里亚，见前注[3]，第21—23页。

　　[22]《圣经·出埃及记》（21）:“以眼还眼，以牙还牙，以手还手，以脚还脚，以烙还烙，以伤还伤，以打还打。”《古兰经》中也有一条几乎完全相同的律法。

　　[23]（英）霍布斯：《利维坦》，黎思复等译，商务印书馆1996年版，第106页。

　　[24]Axelrod, supra note [6].

　　[25]Axelrod, supra note [6], p.31.

　　[26]Axelrod, supra note [6], pp.55-69.

　　[27]斯蒂格勒最早提出“边际威慑”的概念，see George J. Stigler, “The Optimum Enforcement of Laws, ” Journal of Political Economy, Vol.78, No.3, 1970, pp.526-536.沙维尔讨论了早期贝卡利亚和边沁的观念，see Steven Shavell, “A Note on Marginal Deterrence, ” International Review of Law and Economics, Vol.12, No.3, 1992, p.345.关于“边际威慑”的正式论述，see David D. Friedman and William Sjostrom, “Hanged for a Sheep: The Economics of Marginal Deterrence, ” Journal of Legal Studies, Vol.22, No.2, 1993, pp.345-366.

　　[28]参见（美）保罗·W.格莱姆齐：《神经经济学分析基础》，贾拥民译，浙江大学出版社2016年版，第285—286页。

　　[29]为了节省刻度，神经元应对刺激变化的另一个编码策略是参照点的动态漂移，惩罚也采用了参照点动态漂移的方案。对于整体上非常严重的犯罪，惩罚的参照点同样会向上漂移。为什么贪污100万元要比盗窃100万元的量刑轻得多？为什么高级别官员贪污100万元就比低级别官员贪污100万元的量刑轻得多？以及为什么同样是诈骗，集资诈骗100万元就比普通诈骗100万元的量刑轻得多？原因都是惩罚调整了参照点。

　　[30]道德直觉内涵演化逻辑的观念早已是个基本共识，与本文主题相关的文献，see Michael E. Mc Cl-ough, Robert Kurzban and Benjamin A. Tabak, “Cognitive Systems for Revenge and Forgiveness, ” Behavioral and Brain Sciences, Vol.36, No.1, 2013, pp.1-15; Michael E. Mc Cllouu gh, Robert Kurzban and Benjamin A. Tabak, “Evolved Mechanisms for Revenge and Forgiveness, ” in Phillip R. Shaver and Mario Mikulincer (eds.), Human Aggression and Violence: Causes, Manifestations, and Consequences, Washington: American Psychological Association, 2011, pp.221-239.

　　[31]（美）理查德·A.波斯纳：《正义/司法的经济学》，苏力译，中国政法大学出版社2002年版，第214—236页。

　　[32]前文的数据分析在一定程度上验证了这一观点，和普通抢劫相比，转化型抢劫连续作案成为累犯和惯犯的概率都明显降低。

　　[33]这个逻辑可以解释或部分解释刑法中的很多现象，包括但不限于为什么情节轻微不视为犯罪，为什么“法不责众”，为什么“窃钩者诛、窃国者侯”，为什么反通奸法被废除，以及为什么生产和贩卖烟草从来都是合法的。