前沿转载 | 王淑庆：面向人工智能的形式伦理及其逻辑基础

2022-04-14 07:25 https://mp.weixin.qq.com/s/e7O8K3YaFT1CJMSNU_X25Q 王淑庆

摘要： 欲使人工智能体具备道德决策能力，一种可设想的工作是基于形式伦理，即把伦理原则或规则形式化。形式伦理学的初衷并不是面向人工智能，但其做法却适用于人工智能。伦理规范的形式表达必须基于某种逻辑语言及其推理规则，经典逻辑是不够的，所以有必要发展和道德、行动相关的逻辑来适应人工智能道德决策的需求。最为著名道义逻辑为形式伦理提供了一定的基础，应该把它和心智逻辑结合起来。从人工智能体实施行动的过程来看，能动性逻辑是表达机器的道德行动与推理比较有前景的逻辑。

微信图片_20220419082623.jpg

作者简介：王淑庆，湖南师范大学道德文化研究中心、人工智能道德决策研究所副教授、硕士生导师。

文章来源：《伦理学研究》2018年第4期

随着深度学习（基于大数据）和通用人工智能（强化学习）等理论与技术的进展，人工智能在沉寂二十多年后再次迎来一个发展高潮。除了技术本身的问题，人工智能引发的哲学、社会伦理等问题也凸显出来。其中，人工智能带来的伦理问题备受社会和哲学界关注，它关系到普通大众的切身福祉问题。人工智能伦理作为应用伦理学的一个研究领域[1]，有很多问题更迫切地需要得到解决，比如自动驾驶的法律责任问题、算法伦理问题、大数据的共享与隐私问题、人工智能对社会岗位的冲击问题、人工智能陪伴人类服务的伦理问题等。然而，如果欲使机器具备一定程度的道德推理和道德决策能力，特别是让机器成为一定意义上的道德主体，仅靠对道德决策算法的小修改和对人类道德案例的学习，肯定是不够的。人工智能体（artificial agent）应该具备“理解”伦理规范并进行合理的道德推理与决策的能力。这种能力除了能通过深度学习得到训练外，还应该基于它的底层逻辑。

严格来说，人工智能伦理至少包括两方面的内容：一是人工智能体对人的伦理，二是人对人工智能体的伦理。本文不讨论人对智能体的伦理问题，比如人是否对人工智能体具有伦理关系，人机交互时人应该遵循何种伦理规范，等等。本文不在于解决形式伦理本身的问题，而在于论证形式伦理的必要性及其逻辑基础。文章的重点是基于根斯勒（H.J. Gensler）的形式伦理（formal ethics）思想，主要针对人工智能体的道德决策问题，论证心智逻辑（mental logic）和能动性逻辑（logic of agency）比较适合形式伦理。这种探讨可以增进伦理学与逻辑学的交叉研究，最终促进形式伦理在人工智能道德决策中的应用。

一

形式伦理的必要性

按照吉普斯（J. Gips）的说法，机器 / 人工智能伦理有三个基本问题[2]：一是人工智能体的行为能否被认为具有伦理特性？二是人工智能体的行为约束应该以哪些伦理理论为基础？三是在探讨人工智能体的行为是否具有伦理时，人们能学到什么伦理的东西？可见，第一个问题和第三个问题是纯道德哲学问题，第二个问题既是哲学问题，也是技术问题。形式伦理在某种意义上就是第二个问题的技术方面。但按照阿萨罗（P. M. Asaro）的说法，人工智能伦理的三个基本问题是[3]：第一，如何把伦理系统植入到人工智能体中？第二，设计和使用人工智能体的人应该遵循什么伦理规范？第三，人们应该如何对待人工智能体？笔者认为，相比吉普斯的说法，阿萨罗的提法更切合“人工智能伦理”的实质内容。阿萨罗的第一个问题，实际上还包含很多子问题，比如人工智能体实施道德行动应该基于哪些伦理理论？如何把这些理论表达成形式语言（形式伦理）？机器道德推理应该符合什么原则或逻辑？应该用什么样的算法实现这些形式理论？等等。由此可见，不管是吉普斯的问题分类，还是阿萨罗的问题分类，都需要考虑形式伦理的问题。

所谓形式伦理，就是指用现代逻辑的形式方法研究伦理规则或原则的表达与推理问题。如果不考虑人工智能，形式伦理主要是为了元伦理学精确化分析的需要。但问题在于，逻辑那么“硬的东西”如何与伦理那么“软的东西”相结合起来呢？根斯勒认为，伦理学的形式部分和逻辑一样是很硬的，形式的伦理原则应该像逻辑原则一样得到普遍的接受[4]。那么，哪些伦理规则是人类社会最为基本的规范？在根斯勒看来，最基本的伦理规范有六条[4]：一是黄金规则，即“己所不欲，勿施于人”；二是逻辑规则，如一定的范围内保持信念的一致性；三是良心规则，即遵从你的良心；四是公平规则，即在相似的情形中作出相似的评价；五是不后悔规则，不做意识到会后悔的事；六是最大化规则，即在普遍律令的前提下追求最大化效用。这几条规则比较高级，将来也许可以面向具有较高主体性的人工智能体。根斯勒把这些规则用道义逻辑和祈使句逻辑进行了表达，可以看作是形式伦理的初步工作。

把形式伦理应用到人工智能中来，就是让机器能够“理解”并运用它们进行推理，从而帮助其作出道德决策和实施道德行动。人们希望人工智能体具有一定的自主性或能动性，比如具有道德推理或推理决策的能力应该是这种人工能动性（artificial agency）所蕴涵的，它的目的在于使人工智能体不对人类造成伤害，甚至遵守人类文明。阿西莫夫（I. Asimov）提出的三条伦理原则（不准伤害人，服从命令，不准自杀）显然是不够的，因为它只是人工智能体对于人类奴隶式服从的三条基本原则。人工智能体应该遵循哪些伦理规范，根斯勒没有讨论，笔者在第三部分将针对人工智能体的行动，提出两条新的伦理原则。

现在以及可以设想的未来，人工智能体与人类在思维和行动上的差别还非常明显。首先，人类行动对于直觉与经验的依赖与调控方式和人工智能体很不一样。假设把人工智能体也看作一个行动者（agent），那么她的行动依据并不是人类直觉和经验式的，因为她只有在形式语言和机械算法的意义上才能实行推理和决策。在这个意义上，人工智能体对于推理语言的表达与推理过程的精确化需求，自然比人类个体对于推理精确化的需求更为迫切。其次，从理论上说，机器实施道德行动比人更依赖形式伦理理论。任何一种伦理理论，如义务论、功利论、美德论以及正义论等，如果要把它移植到人工智能体中，必须要把它表达成人工智能体能够理解的形式语言和推理模型算法，而这两者肯定得是形式化的。再次，从实践上说，人工智能体面临冲突时不如人灵活。即使人工智能体不是基于大量的逻辑推理来进行决策，比如基于贝叶斯期望效益来决策并实施行动，但它在面临冲突时，它总得按照一定的伦理原则进行推理，然后才能取舍。而人工智能体如果要理解并执行符合某种原则的行动，也必须是形式化的：比较简单的做法就是按照特定的形式模式来决策，从而最终实施行动；较为复杂的做法是基于一定的逻辑系统，再把这些规则设置成“特定公理”，让机器自己推理和决策。最后，深度学习算法无法让机器真正地“理解”伦理世界。在图灵奖得主珀尔（J. Pearl）看来，目前基于深度学习的人工智能做法存在缺陷，即无法从因果的角度理解世界与进行因果推理。他认为，未来强人工智能体必须具备从因果性上“理解”世界并进行相关的因果推理，这包括从因果性上理解人类社会及其伦理方面[ 5 ]。要实现这一点，最为基础的工作就是对因果进行建模。从人机互动的角度看，机器遵守人类伦理规范的前提是，她们能够理解（或者部分地理解）人类行动的规范性，这在一定程度上取决于形式伦理的进展。

如果上面的分析是正确的，那么形式伦理对于具有一定道德自主能力的人工智能体就是必要的。当然，这种伦理推理规则在人工智能体中的实现中会面临一些困难。正如徐英谨所认为的，如何把表达伦理规范的自然语言和机器代码具体结合在一起，实际上是一件非常麻烦的事[6]。比如，如果用贝叶斯期望效用最大化原则作为人工智能体的决策原则，则如何使得伦理推理适应这种最大化原则，就不是一个简单的问题。再如，在复杂的情况下，特别是多种利益冲突的情况下，为了让人工智能体能够快速地作出决策，如何快速地进行伦理推理也是比较困难的[7]。为了解决这些困难，最基本的工作之一也许就是探讨形式伦理的逻辑基础问题。

二

从道义逻辑到心智逻辑

伦理学理论由伦理命题组成，伦理命题需要用一定的语言表达，关于伦理命题的正确推理需要遵循相应的逻辑推理规范。经典一阶逻辑是最为普遍的逻辑，它是多数推理的基础性逻辑。对于人工智能体来说，其道德推理不仅要遵守最基础的一阶逻辑，还需要遵守和道德推理相关的逻辑。然而，由于一阶逻辑过于复杂，且在表达伦理推理时要构造相当多的谓词，而相关的模态逻辑（如道义逻辑、心智逻辑）更有应用价值。下文不考虑多人工智能体间的互动关系，只讨论形式伦理表达和单个智能体在进行道德推理时应该以什么样的逻辑作为基础。

我们假定，人工智能体有意义的肢体移动也算行动。那么，如何保证人工智能体在实施行动时遵行相应的伦理规范，即让人工智能体实施那些伦理允许的行动，并禁止做一些违反伦理规范的行动，这是形式伦理学的题中之义。最基本的要求是用相关逻辑语言形式化这些伦理规则，即用某一套形式语言来表达这些伦理规则或原则集。道义逻辑是最容易被想到的表达与推理工具，因为道义逻辑研究道德算子（如应该 O、允许 P、禁止 F 等）的逻辑。这意味着，在一定的范围内，可以用道义逻辑表达伦理规范。比如，阿西莫夫就提出的三条机器伦理编码原则有一条是义务规范，有两条是禁止规范，从而可以表示为：Fφ，Oψ，Fθ。至于 Fφ 与 Oψ 和 Fθ 与哪些行动相关联，它们如何参与到决策推理中来，则是进一步研究的问题。另外，很多伦理规范只在一定的条件下才有效，这可用条件道义公式表示，比如用 F(φ/ψ)表示在 ψ 的条件下，φ 是禁止的，这就比单纯的不讲条件的禁止更切合实际。道义算子与“能够”算子（用 C 表示）结合，还可以表达更丰富的伦理命题，如著名的“应该蕴涵能够”原则（Oφ→Cφ）实际上有两层意思：一是应当做的则一定是有能力做的，二是应当做的一定是符合伦理规范（允许做的）。如何让机器区分并“理解”这两层意思，需要更细致的行动模型与逻辑表达。

但是，道义逻辑有几个问题阻碍了它作为形式伦理的逻辑基础。一是道义悖论问题，如罗斯悖论、承诺悖论、乐善好施悖论、反义务悖论，人类在面对悖论或悖论性情景难以处理，更不用说机器；二是道义逻辑过于理想化，并不能很好地反映现实中道德或法律推理[8]。因此，需要对道义逻辑进行进一步修正研究，才能更好地适应形式伦理的需要，比如它可以与心智逻辑结合起来。心智逻辑是为了从逻辑上刻画一些重要的心智状态。心理学认为，知情意是心智的三个核心方面。相应地，就有三类逻辑：刻画认知的认知逻辑，刻画情感的情感逻辑，以及刻画意志的行动逻辑。由于认知逻辑目前在国内外研究比较多，本文只关注情感逻辑和行动逻辑，下面先讨论情感逻辑与形式伦理的关系。

一般认为，情感是智能的一个重要方面。但是，并非任何情感都值得进行逻辑刻画，而且有些情感和伦理关系不大，但像欲望、后悔、害怕等情感是具有一定的伦理意义的，因为这些情感能够驱动或阻人去实施行动。举例来说，一个人工智能体在某种情况下，欲望做某事且做了此事，但之后发现其行为不符合某规范，于是产生了后悔“情感”；并且，在某些情况下，她欲望去做一些事，但并不确定是否能够完全成功，这时她应该具有害怕的情感。其实，按照斯宾诺莎和休谟的看法，情感在伦理学上具有重要意义。在斯氏看来，欲望、快乐、痛苦、爱、恨、希望、同情等是一些基本的情感[9]。事实上，据心理学研究结果，人类的情感类型共有 22 种，目前已有文献就其形式表达研究进行了较为详细的讨论[10]。在此意义上，如何使人工智能体具有这些情感，且让它们影响到人工智能体进行理性决策和实施行动，这就更具伦理意义。比如“后悔 R”，它是“对于既成事实的道德与逻辑反思”，这种表达既有逻辑特性也有伦理特性，即 Rφ→φ Oφ □φ。[11]

如果上述讨论在未来是有可能实现的，那么情感逻辑对于形式伦理就不是可有可无的。这是因为，要把这些情感“移植”到机器中，并进行相关推理，最基本的工作就是进行形式定义与表达，建立相关模型。笔者目前能见到的情感形式理论，有后悔逻辑、希望逻辑、害怕愤怒逻辑、情感建模等。也许，人工智能体在“情感体验”上和人类完全不同，甚至没有情感体验，只有外在看上去的情感存在。但是，这不影响我们把她们看作或希望把她们看作是有“情感”的智能体，只要她们的行动是受这些情感的影响———如果这种影响和人类情感对于行动的影响方式在总体上是类似的。事实上，人工智能体的情感表达与推理研究，目前还处于起步阶段。尽管未来任重道远，但无疑是富有吸引力的。

三

能动性逻辑与形式伦理

人工智能体进行有效的且有伦理价值的实践推理，并进而实施符合道德的行动，这是人工智能伦理的目标之一。如前所述，一种必要的工作是基于刻画智能体意志的行动逻辑。所谓行动逻辑，就是对行动的本质特性进行形式刻画的逻辑，它主要包括能动性逻辑、动态行动逻辑和信念修正逻辑。由于后两类逻辑没有把行动者实施行动的整个过程刻画出来，特别是没有刻画出行动者的心智状态对于行为的影响，所以笔者认为，对人工智能形式伦理来说，行动逻辑中最有潜力的是能动性逻辑。能动性逻辑是对能动性的形式表达与推理刻画。它不仅可以和心智逻辑以及认知逻辑结合起来，而且还有可能帮助人工智能体能够进行道德推理。

在最一般的意义上，能动性是“行动者有能力实施行动的体现”[12]。对于人类行动者来说，能动性的施展与心智状态密切相关，比如行动哲学的主流理论行动因果论就认为，作为心智状态的理由是行动发生的原因。区别于人类能动性，人工智能体有能力实施行动的体现，就是人工能动性。目前有不少人工能动性模型，其中最流行的是布莱特曼的BDI 模型[13]。它之所以广受人工智能体建模的欢迎，原因在于它是对人类能动性的一种较为合理的抽象。当然，它还有继续发展的必要。发展的方向之一是，扩展这个模型到人工道义能动性模型及其推理研究，特别是把它与表达能动性概念的“致使”（Eφ）、“确保”（Sφ）以及“尝试”（Aφ）和“能够”（Cφ）结合起来。至少在语言上，可以构造出如下表达人工能动性的模态语言：φ:=p| φ|φ φ|B φ|D φ|Iφ|Eφ|Sφ|Aφ|Cφ。有了这个语言，就可以表达人工智能体的心智状态与致使之间的关系的一些命题，比如：智能体意图某个事态，则她相信这个事态对于她是能够实现的，即 Iφ→BCEφ。在此语言的基础上，加入道义算子（如必需算子 O）则可表达伦理命题。比如：智能体意图某个事态但她不能确保，则她相信这个事态对于她是不应该做的，即 Iφ Sφ→B OAφ。在语义模型上，可基于分枝时间框架〈T，＜〉为上述语言构造行动模型，如对已有的确保模型和尝试模型进行改造，构造出新的行动模型〈T，＜，Ch，RB，RD，RO，VI，V〉，不妨把它叫作人工道义能动性模型（技术细节略）。

有了上述逻辑语言与模型，笔者在此提出人工智能体行动的两条伦理原则：确保原则和尝试原则。假设 φ 是关乎伦理的事态，那么这两条原则的内涵可理解如下。第一，确保原则：在资源允许的情况下，如果人工智能体能够确保 φ，就不要只尝试φ；除非不能确保又只能尝试的情况下。这条原则是很有伦理特性的，特别是一些和其他行动者相关的确保内容。比如，一个照看小孩的机器人，就必须有能力确保小孩不受到伤害。另外，弱人工智能的目标是让机器能像人一样实施理性行动。理性行动意味着行动主体应尽量避免偶然事态的发生，换句话说，它要求行动者经过理性选择，做那些能够确保目标事态的行动。在分枝时间框架上，可以定义“确保”和“尝试”等概念的精确语义，这就为人工智能体实施理性且道德的行动提供了某种逻辑基础。第二，尝试原则：在不能确保 φ 的情况下，人工智能体要尽力尝试实现 φ。避免人工智能体对人类行动者正在遭受的伤害漠视不管，这自然是人工智能道德体决策的重要问题。与人类行动者类似，人工智能体在很多情况下是“力不从心”的，即不能确保一些安全事态，特别是在危险环境中。基于上述逻辑语言与行动模型，如果人工智能体能够根据危险情况“主动”尝试实现事态 φ，就是一项值得期待的任务。这种“主动尝试”能够体现人工智能体的“援助之心”，即使“这种尝试”可能面临失败。有了上述能动性逻辑作为基础，人工智能体才有可能“理解”并实施这两条原则。值得一提的是，这两条行动原则可以在形式伦理中得到良好的表达，而且它与阿西莫夫的机器人三条伦理原则是一致的。由此可见，基于上述能动性逻辑语言和模型，人工智能体行动的两条伦理原则不仅与行动的效率有关，更重要的是能体现人工智能体行动的伦理关怀。

根据贝克的能动性分层理论[14]，能动性可分层为三个级别：极小能动性、审慎能动性和道义能动性。只要有心智状态（如后悔、相信）作为实施行动的理由，就是极小能动性；有理性因素（知道、推理）和道德因素（必须、谴责）的参与，则分别是审慎能动性和道义能动性。在这个意义上，理性因素与道义因素参与的能动性，都是能动性的高级表现。人工智能形式伦理更关注人工道义能动性，特别是表达各种心智状态推理是怎么影响到人工智能体道德推理与决策的。如前所述，要表达各种心智状态对于道德决策的影响，需要把心智道义算子与表达行动的算子结合起来。就目前来看，有的学者在事件演算的基础上加入 BDI 算子和应该算子 O来进行刻画[15]，但这种刻画的问题在于它假定了理想人工智能体，且它对道义的表达非常狭窄（只有应该算子），而且没有把各种心智状态算子与能动性算子结合起来。而上述逻辑语言和模型，有可能真正地克服这些缺陷。

由上可见，为了从逻辑上表达和刻画形式伦理，最重要的是刻画人工道义能动性概念。而要达到这个目标，必须要把各种心智状态算子与能动性算子结合起来。由于心智逻辑与能动性逻辑的结合本身也可以看作是能动性逻辑，因而对于单智能体的道德推理来说，较为合适的逻辑基础就是能动性逻辑。事实上，能动性逻辑近年发展的一个趋势就是能动性逻辑与认知逻辑、道义逻辑的结合[16]。

四

结论与进一步的问题

综上所述，可以得到两个结论：第一，形式伦理对于具有较高水平的人工智能体是必要的；第二，在已有的逻辑中，道义逻辑需要与心智逻辑进行结合，心智逻辑中的能动性逻辑对于形式伦理更有发展前景。如果欲使人工智能体在为人类服务或人机互动时体现一定程度的道德水平，形式伦理及其逻辑基础研究具有一定的价值。假定这个结论成立，以下两个问题更是不可忽视的。

第一，道德推理的逻辑规律。一般认为，道德推理是实践推理的一种类型，它的目的是得到一种关于道德的行动或决定。不同的人基于不同的理由，可能会对道德判断产生截然相反的结论。类似地，人工智能体也很可能出现这种情况。因此，道德判断就需要进行道德论证或推理[17]。但是，这种推理的逻辑结构不是一般的演绎结构，也不是简单地通过归纳得到。探究它的结构，对于人工智能体的道德判断或许具有基础意义，并进而影响其自动进行道德决策的能力。而且，就目前来说，实践推理方面的研究实际上是非常薄弱且具有较大挑战性，其中的很大困难在于需要多学科的合作[18]。

第二，形式伦理对于人工智能体道德决策的影响方式。在目前的人工智能决策算法中，主要是基于期望效益最大化模型。比如，考察一个行动 α 是否值得做，人工智能可能会通过计算它的价值 V(α)来决定，且 V(α)用求和函数 Σφ(α)来表达[19]。吉普斯认为，从不具备道德决策的人工智能体到具备道德决策的人工智能体，区别在于是否有一层伦理规范在影响着她的决策[2]。那么，这些伦理规范或理论是如何影响到道德决策的呢？处理这个问题，不管是自上而下的逻辑方式，还是自下而上的机器学习方式，都会存在一些问题[20]。于是，有研究者认为，需要对人工智能体道德决策实行监管，包括外部制约和和内部监控。[21]

责任编辑：王淑庆