Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI
可解释性人工智能(Explainable Artificial Intelligence, XAI):概念,分类,基于和挑战,迈向负责任的人工智能
摘要
在过去几年中,人工智能(AI)取得了显著的发展势头,如果能够适当利用,可能在许多应用领域带来最好的预期效果。为了使机器学习能够在短时间内实现这一点,整个学界面临着可解释性的障碍,这是最新技术由次符号主义(例如集成算法(ensembles)或深度神经网络(Deep Neural Networks, DNNs))带来的一个内在问题,这在AI的上一次热潮中(即专家系统(expert systems)和基于规则的模型(rule based models))并不存在。这个问题背后的范式属于所谓的可解释AI(XAI)领域,它被广泛认为是AI模型实际部署的一个关键特征。本文综述了XAI领域的现有文献和已有的贡献,包括对未来的展望。为此,我们总结了在机器学习(Machine Learning, ML)中定义可解释性的先前努力,建立了一个新的可解释机器学习的定义,涵盖了先前的概念命题,主要关注寻求可解释性的受众。基于这个定义,我们提出并讨论了与不同机器学习模型的可解释性相关的最近贡献的分类,包括那些旨在解释深度学习方法的,为此构建了第二个专门的分类并进行了详细检查。这个重要文献为XAI面临的一系列挑战提供了激励的背景,例如数据融合和可解释性的有趣交叉点。我们试图给出负责任的人工智能的概念,即在实际组织中大规模实施AI方法的方法论,其核心是公平性、模型可解释性和可问责性。我们的最终目标是为进入XAI领域的新手提供一个全面的分类,作为参考材料,以激发未来的研究进展,同时鼓励其他学科的专家和专业人士在他们的活动领域中采纳AI的好处,而不会因为其缺乏可解释性而产生任何先入为主的偏见。
1.简介
人工智能(AI)位于许多活动领域的中心,这些领域已经采纳了新的信息技术[1]。尽管AI的根源可以追溯到几十年前,但现在人们普遍认为智能机器具有学习、推理和适应能力的重要性。正是凭借这些能力,AI方法在学习解决日益复杂的计算任务时取得了前所未有的性能水平,使它们成为人类社会发展的关键[2]。AI驱动系统的复杂性最近增加到了这种程度,以至于它们的设计和部署几乎不需要人为干预。当这些系统做出的决策最终影响到人类生活时(例如在医学、法律或国防等领域),就需要理解AI方法是如何提供这些决策的[3]。
AI系统最初是易于解释的,近年来出现了不透明的决策系统,例如深度神经网络(DNNs)。深度学习(DL)模型,如DNNs的经验成功源于高效学习算法和它们巨大的参数空间的结合。后者包含数百层和数百万参数,这使得DNNs被认为是复杂的黑盒模型(black-box)[4]。与黑盒性相反的是透明度(transparency),即寻找对模型工作原理的直接理解[5]。
随着黑盒机器学习(ML)模型越来越多地被用于在关键环境中做出重要预测,AI领域的各种利益相关者对透明度的需求也在增加[6]。危险在于创建和使用不具有正当性、合法性或根本不允许对其行为进行详细解释的决策[7]。在精密医学等领域,模型输出的解释至关重要,专家需要从模型中获得比简单的二进制预测更多的信息以支持他们的诊断[8]。其他例子包括交通中的自动驾驶车辆、安全和金融等领域。
总的来说,人们不愿意采用那些不能直接可解释、可追溯和可信的技术[9],鉴于对道德AI的需求日益增加[3]。通常认为,仅关注性能,系统将变得越来越不透明。从某种意义上说,这是正确的,因为模型性能和其透明度之间存在权衡[10]。然而,对系统的理解的提高可以导致对其缺陷的纠正。在开发ML模型时,将可解释性作为额外的设计驱动因素可以提高其可实施性,原因有三:
- 可解释性有助于确保决策中的公正性,即检测并随后纠正训练数据集中的偏差。
- 可解释性通过突出可能改变预测的潜在对抗性扰动,促进了鲁棒性(robustness)的提供。
- 可解释性可以作为一种保障,只有有意义的变量影响输出,即保证模型推理中存在真实的因果关系(causality)。
所有这些意味着系统的解释应该是实用的,提供对模型机制和预测的理解、模型的辨别规则的可视化,或者提示什么可能扰乱模型[11]。
为了避免限制当前一代AI系统的有效性,可解释AI(XAI)[7]提出了创建一系列ML技术,这些技术1)在保持高水平的学习性能(例如,预测准确性)的同时产生更可解释的模型;2)使人类能够理解、适当信任和有效管理新一代的人工智能伙伴。XAI还从社会科学[12]中汲取见解,并考虑解释心理学。
图1显示了XAI及相关概念的贡献上升趋势。
这一文献爆发与国家政府和机构的研究议程有共同的原因。尽管一些最近的调查[8,10,13–17]总结了XAI在各个领域和学科中的活动激增,但本综述旨在创建一个完整的统一框架,包括类别和概念,允许审查和理解XAI方法领域。此外,我们围绕数据融合环境中AI模型的可解释性提出了一些有趣的思考,涉及数据隐私和模型保密性。这,以及其他研究机遇和挑战,将我们的视野引向负责任的人工智能,我们指的是在实际应用中部署AI时必须满足的一系列AI原则。正如我们稍后将详细展示的,模型可解释性是在这种方法论框架中必须确保的最关键的方面之一。总之,本综述的新贡献可以总结如下:
1)基于对XAI相关研究中使用的术语和概念的首次阐述,我们提出了一个新的可解释性定义,将受众(图2)视为解释ML模型时要考虑的关键方面。我们还阐述了使用XAI技术时寻求的不同目的,从信任度到隐私意识,这些都强调了目的和目标受众在模型可解释性中的重要性。
2)我们定义并检查了ML模型本身可以具备的不同透明度水平,以及事后可解释性(post-hoc explainability)的不同方法,即解释ML模型并非设计上的透明度。
3)我们彻底分析了迄今为止发表的关于XAI和相关概念的文献,涵盖了大约400项贡献,分为两个不同的分类。第一个分类涉及使用先前区分的透明度和事后可解释性来解释ML模型,包括本身透明的模型,深度和非深度(即浅层shallow)学习模型。第二个分类涉及适用于解释深度学习模型的XAI方法,使用与这一系列ML方法密切相关的分类标准(例如逐层解释(layerwise explanations)、表示向量(representation vectors)、注意力(attention))。
4)我们列举了XAI至今仍未充分解决的一系列挑战。具体来说,我们确定了围绕评估ML模型可解释性的概念和指标的研究需求,并概述了使深度学习模型更易于理解的研究方向。我们进一步将我们的前景扩展到XAI技术在隐私、对抗性设置中的鲁棒性、数据多样性以及其他与可解释性相交的领域的影响。
5)在前面的展望讨论之后,我们来到了负责任的人工智能的概念,这是一个多方面的概念,它要求系统地采用一系列AI原则,以便在实际环境中实施AI模型。除了可解释性之外,负责任AI背后的指导方针还规定,在实施AI模型时还应考虑公平性、可问责性和隐私。
6)由于负责任AI将模型可解释性与隐私/安全设计相结合,我们呼吁深刻反思XAI技术在处理敏感信息和/或保密ML模型的场景中的利弊。正如我们稍后将展示的,对数据隐私、质量、完整性和治理的监管需要更多的努力来评估XAI在这一领域的作用。在这方面,我们提供了在不同数据融合范式下XAI在隐私和安全方面的启示。
本综述的其余部分结构如下:首先,第2节及其小节讨论了围绕AI中的可解释性和可解释性的概念和术语,最后提出了上述新的可解释性定义(第2.1和2.2节),以及从XAI角度对ML模型进行分类和分析的一般标准。第3和4节继续回顾ML模型的XAI最新发现(分别关于透明模型和事后解释性技术),构成了上述分类的主要划分。还包括了两者之间的混合方法的综述,以实现XAI。第5节讨论了这些方法之间的协同作用的好处和注意事项,我们提出了一般挑战和一些需要谨慎的后果。最后,第6节详细阐述了负责任的人工智能的概念。第7节以旨在吸引学界围绕这一充满活力的研究领域进行展望的结论结束,这一领域有可能影响社会,特别是那些逐渐将ML作为其活动核心技术的领域。
2.可解释性:是什么(what),为什么(why),为了什么(what for),以及怎么样(how)?
在继续我们的文献研究之前,首先建立一个关于AI和特别是ML中可解释性术语的共同理解点是必要的。这确实是本节的目的,即暂停关于这个概念的众多定义(是什么?),讨论为什么可解释性在AI和ML中是一个重要问题(为什么?为了什么?)并介绍将推动后续文献研究的XAI方法的一般分类(怎么样?)。
2.1. 术语澄清
阻碍建立共同基础的问题之一是文献中可解释性(interpretability)和可解释性(explainability)概念的交替误用。这些概念之间存在显著差异。首先,interpretability指的是模型的一个被动特性,指的是一个给定模型对人类观察者来说在多大程度上讲得通。这个特性也被称为透明度。相比之下,explainability可以被视为模型的一个主动特性,表示模型采取的任何行动或程序,旨在澄清或详细说明其内部功能。
为了总结最常用的术语,在本节中我们澄清了在伦理AI和XAI领域中经常使用的术语之间的差异和相似之处。
- 可理解性understandability(或等价于可理解性intelligibility)表示模型的一个特性,即人类理解其功能——模型如何工作——而无需解释其内部结构或模型处理数据的算法手段[18]。
- 可理解性comprehensibility:对于ML模型,comprehensibility指的是学习算法对于其学到的知识以人类可理解的方式表示的能力[19-21]。这个模式可理解性的概念源于Michalski的假设[22],它指出“计算机归纳的结果应该是对给定实体的符号描述,语义和结构上与人类专家观察相同实体时可能产生的描述相似。这些描述的组成部分应该是可理解的单个‘块’信息,直接用自然语言解释,并应该以合并的方式关联定量和定性概念”。鉴于其难以量化,可理解性通常与模型复杂性的评估相关[17]。
- 可解释性interpretability:它被定义为解释或以可理解的术语向人类提供含义的能力。
- 可解释性explainability:可解释性与解释的概念相关联,解释是作为人类和决策者之间的接口,既是决策者的准确代理,又对人类来说是可理解的[17]。
- 透明度transparency:如果模型本身是可理解的,则认为模型是透明的。由于模型可以具有不同程度的可理解性,第3节中的透明模型被分为三个类别:可模拟模型、可分解模型和算法透明模型[5]。
在所有上述定义中,understandability作为XAI中最重要的概念出现。transparency和interpretability都与这一概念密切相关:transparency指的是模型本身对人类来说可理解的特性,而understandability衡量人类对模型所做的决策的理解程度。comprehensibility也与understandability相关,因为它依赖于受众理解模型中包含的知识的能力。总之,understandability是一个双面问题:模型可理解性和人类可理解性。这就是为什么第2.2节中给出的XAI定义提到了受众的概念,因为模型用户的的认知技能和追求的目标必须与所使用的模型的intelligibility和comprehensibility一起考虑。understandability的这一突出作用使得受众的概念成为XAI的基石,我们将在下面更详细地阐述。
2.2. 是什么?
尽管可能被认为是超出了本文的范围,但值得注意的是,在哲学领域中关于解释的一般理论的讨论[23]。在这方面已经提出了许多建议,建议需要一个接近解释的结构和意图的一般统一理论。然而,当提出这样一个一般理论时,没有人能经受住批评。目前,最被接受的思想是将来自不同知识学科的不同解释方法结合起来。在AI中处理可解释性时也出现了类似的问题。从文献中可以看出,目前对什么是interpretability或explainability还没有一个共同的理解。然而,许多贡献声称实现了可解释模型和技术,增强了可解释性。
为了阐明这种缺乏共识的问题,可能有趣的是将参考的起点放在D. Gunning在[7]中给出的可解释人工智能(XAI)的定义:
“XAI将创建一套机器学习技术,使人类用户能够理解、适当信任并有效管理新一代的人工智能伙伴。”
这个定义结合了两个需要事先解决的概念(理解和信任)。然而,它没有考虑到其他需要可解释AI模型的目的,如因果关系、可转移性、信息量、公平性和信心[5,24-26]。我们将在后面详细讨论这些主题,在这里提到它们作为上述定义不完整性的支撑示例。
正如上述定义所示,一个全面、完整的可解释性定义仍然难以捉摸。一个更广泛的重新表述这个定义(例如“一个可解释的人工智能是一个产生关于其功能解释的人工智能”)将无法充分描述所讨论的术语,忽略了其目的等重要方面。为了建立在完整性上,首先需要定义explanation。
根据剑桥英语语言词典,解释是“某人给出的细节或理由,使某事物清晰或易于理解”[27]。在ML模型的背景下,这可以被重新表述为:“模型给出的细节或理由,使其功能清晰或易于理解”。正是在这一点上,意见开始分歧。本质上源于先前的定义,可以指出两个模糊之处。首先,用来解释的细节或理由完全取决于他们呈现给的受众。其次,解释是否使概念清晰或易于理解也完全取决于受众。因此,定义必须被重新表述以明确反映模型的可解释性对受众的依赖。为此,一个重新加工的定义可以读作:
“给定特定的受众,可解释性指的是模型提供的细节和理由,使其功能清晰或易于理解。”
争议的是,由于解释可能涉及权衡、比较或用基于逻辑的形式化(反)论点说服受众[28],可解释性可能将我们引入认知心理学和解释心理学的领域[7],因为衡量某事物是否已被理解或清晰表达是一项难以客观衡量的任务。然而,衡量模型内部可以被解释的程度可以客观处理。任何降低模型复杂性或简化其输出的手段都应被视为XAI方法。在复杂性或简单性方面的这一飞跃将对应于结果模型的可解释性。一个仍未解决的潜在问题是,通过这种XAI方法提供的可解释性增益可能不易直接量化:例如,模型简化可以根据模型本身的架构元素数量或参数数量的减少来评估(例如,通常对DNNs进行评估)。相反,使用可视化方法或自然语言达到相同目的并不利于可解释性改进的清晰量化。衍生出评估XAI方法质量的一般指标仍然是一个开放的挑战,应该在未来几年成为该领域的焦点。我们将在第5节进一步讨论这一研究方向。
可解释性与事后可解释性相关,因为它涵盖了将非可解释模型转换为可解释模型的技术。在本文的剩余部分中,可解释性将被视为主要的设计目标,因为它代表了一个更广泛的概念。模型可以被解释,但模型的可解释性是模型设计本身的东西。考虑到这些观察,可解释的人工智能可以被定义如下:
“给定受众,可解释的人工智能是产生使其功能清晰或易于理解的细节或理由的人工智能。”
这个定义在这里作为本概述的第一个贡献提出,隐含地假设XAI技术为模型提供的易于理解和清晰度目标在不同的应用目的中体现,例如通过受众对模型输出的信任度提高。
2.3. 为什么?
如引言中所述,可解释性是AI实际实施中目前面临的主要障碍之一。无法解释或完全理解最先进的ML算法为何表现如此之好,这个问题的根源在于两个不同的原因,这两个原因在图2中概念上被说明。
毫无疑问,第一个原因是学界研究和商业部门之间的差距,阻碍了最新的ML模型在那些在数字化转型过程中传统上落后的领域中的充分渗透,如银行、金融、安全和健康等。通常,这个问题出现在严格受监管的部门,它们对实施可能危及其资产的技术持谨慎态度。
第二个轴是知识的轴。AI已经帮助世界各地的研究者推断出远远超出人类认知范围的关系。每个处理大量可靠数据的领域都从AI和ML技术的采用中大大受益。然而,我们正在进入一个时代,在这个时代中,研究只对结果和性能指标感兴趣。尽管对于某些学科来说,这可能是公平的情况,但科学和社会远远不只关心性能。寻求理解是开启进一步模型改进和其实用性的大门。
接下来的部分进一步发展了这些观点,通过分析寻求可解释AI模型的动机。
2.4. 为了什么?
围绕XAI的研究活动迄今为止揭示了从实现可解释模型中获得的不同目标。几乎没有论文完全同意描述可解释模型应该迫使的目标。然而,这些不同的目标可能有助于区分进行ML可解释性训练的目的。不幸的是,很少有文章试图从概念上定义这样的目标[5,13,24,30]。我们现在综合并列举这些XAI目标的定义,以便为这篇综述涵盖的全套论文建立第一个分类标准:
- 信任度trustworthiness:一些作者同意将信任度作为可解释AI模型的主要目标[31,32]。然而,根据其导致信任的能力将模型申明为可解释的,可能不完全符合模型可解释性的要求。信任度可以被认为是模型当面临给定问题时能否按预期行动的信心。虽然它肯定应该是任何可解释模型的属性,但它并不意味着每个值得信赖的模型都可以被认为是可解释的,也不是一个容易量化的属性。信任可能远非可解释模型的唯一目的,因为两者之间的关系不是相互的。部分综述的论文在陈述其实现可解释性的目的时提到了信任的概念。然而,如表1所示,它们并不代表与XAI相关的最近文献中的大部分。
- 因果关系causality:可解释性的另一个共同目标是寻找数据变量之间的因果关系。一些作者认为,可解释模型可能有助于发现关系,如果它们发生的话,可以进一步测试这些变量之间更强的因果联系[159,160]。从观测数据中推断因果关系是一个长时间被广泛研究的领域[161]。正如在这个问题上研究界所广泛认可的,因果关系需要广泛的先验知识来证明观察到的效应是因果的。ML模型只发现它从中学习的数据中的相关性,因此可能不足以揭示因果关系。然而,因果关系涉及相关性,因此可解释的ML模型可以验证因果关系推断技术(causality inference techniques)提供的结果,或提供可能的因果关系数据的第一眼直觉。同样,表1显示,如果我们关注明确将因果关系作为其目标的论文数量,因果关系并不是最重要的目标之一。
- 可转移性transferability:模型总是受到允许它们无缝(seamless)转移的约束。这就是为什么在处理ML问题时使用训练-测试方法的主要原因[162,163]。可解释性也是可转移性的倡导者,因为它可能有助于阐明可能影响模型的界限,允许更好地理解和实施。同样,仅仅理解模型内部发生的关系有助于用户在另一个问题中再次使用这些知识。有一些情况下,对模型缺乏适当的理解可能会使用户走向错误的假设和致命的后果[44,164]。可转移性也应该属于可解释模型的结果属性之一,但并不是每个可转移的模型都应被视为可解释的。如表1所示,声称使模型可解释的能力是为了更好地理解再次使用它或改进其性能所需的概念的论文数量是追求模型可解释性的第二大原因。
- 信息量informativeness:ML模型用于支持决策的最终目的[92]。然而,不应该忘记模型解决的问题与人类对应面临的问题并不相同。因此,需要大量的信息才能将用户的决策与模型提供的解决方案联系起来,并避免陷入误解的陷阱。为此,可解释的ML模型应该提供有关正在处理的问题的信息。在综述的论文中发现的大多数理由是提取有关模型内部关系的更多信息。几乎所有的规则提取技术都基于寻找模型内部如何工作的更简单的理解,认为知识(信息)可以以这些他们认为是解释模型的更简单的代理来表达。这是在综述的论文中支持他们期望从可解释模型中获得什么的最常用的论点。
- 信心confidence:作为鲁棒性和稳定性的概括,信心总是需要在预期可靠性的模型上进行评估。维持信心控制的方法取决于模型。如[165-167]所述,稳定性是在从某个模型中得出解释时必须具备的。值得信赖的解释不应该由不稳定的模型产生。因此,可解释的模型应该包含对其工作机制的信心。
- 公平性fairness:从社会角度来看,可解释性可以被视为达到和保证ML模型中公平性的能力。在某些文献线索中,可解释的ML模型暗示了对影响结果的关系的清晰可视化,允许对模型进行公平或道德分析[3,100]。同样,XAI的一个相关目标是突出模型暴露于数据中的偏差[168,169]。算法和模型的支持在涉及人类生活的领域迅速增长,因此可解释性应该被视为避免算法输出的不公平或不道德使用的桥梁。
- 可访问性accessibility:一小部分综述的贡献主张可解释性作为允许最终用户更多参与改进和发展某个ML模型的过程[37,86]。显然,可解释的模型将减轻非技术或非专家用户在处理最初看起来难以理解的算法时所感受到的负担。这个概念被表达为调查文献中第三大考虑的目标。
- 互动性interactivity:一些文献[50,59]包括模型与用户的互动能力作为可解释ML模型的目标之一。再次,这个目标与最终用户非常重要的领域有关,他们与模型的调整和互动能力是确保成功的关键。
- 隐私意识privacy awareness:在综述的文献中几乎被遗忘,可解释性在ML模型中实现的一个副产品是其评估隐私的能力。ML模型对于其学习方式有复杂的表现现式。无法理解模型[4]捕获了什么以及存储在其内部表示中的内容可能会侵犯隐私。相反,能够解释训练有素的模型内部关系的能力,未经授权的第三方也可能危及数据来源的部分隐私。鉴于其在XAI预计发挥关键作用的部门的至关重要性,保密性和隐私问题将在第5.4节和6.3节中进一步讨论。
本小节回顾了在广泛范围内的综述论文中遇到的目标。所有这些目标显然都在本节前面介绍的可解释性概念的表面之下。为了总结对可解释性概念的先前分析,最后一个小节涉及学界为解决ML模型中的可解释性问题而采取的不同策略。
2.5. 如何实现可解释性?
文献清楚地区分了通过设计可解释的模型和可以通过外部XAI技术进行解释的模型。这种二元性也可以被视为可解释模型(interpretable models)和模型可解释性技术(model interpretability techniques)的区别;一个更广泛接受的分类是透明模型(transparent models)和事后可解释性(post-hoc explainability)。这种区别也出现在[17]中提出的论文中,其中作者的区别是指解决透明盒子设计问题的方法与解释黑盒子问题的方法之间的区别。这项工作进一步扩展了对包括不同透明度水平的透明模型的区别。
在透明度中,考虑了三个层次:算法透明度(algorithmic transparency)、可分解性(decomposability)和可模拟性(simulatability)。在事后技术中,我们可以区分文本解释(text explanations)、可视化(visualizations)、局部解释(local explanations)、示例解释(explanations by example)、简化解释(explanations by simplification)和特征相关性(feature relevance)。在这种情况下,有一个更广泛的区分,由[24]提出,区分1)不透明系统(opaque systems),其中从输入到输出的映射对用户是不可见的;2)可解释系统(interpretable systems),用户可以数学分析映射;3)可理解系统(comprehensible systems),模型应该输出符号或规则以及其特定输出,以帮助理解映射背后的逻辑过程。这最后一个分类标准可以被认为包含在先前提出的分类中,因此本文将尝试遵循更具体的一个。
2.5.1. 机器学习模型中的透明度水平
透明模型本身具有一定的可解释性。属于这一类别的模型可以根据它们可解释的领域,即算法透明度、可分解性和可模拟性来接近。正如我们在图3中详细说明的,每一类别都包含其前者,例如,可模拟的模型同时也是可分解的和算法透明的模型:
- 可模拟性表示模型能够被人类模拟或思考,因此复杂性在这一类中占据主导地位。也就是说,简单但广泛的(即规则数量过多)基于规则的系统不属于这一类,而单个感知器神经网络属于这一类。这一方面与这样的主张一致:稀疏线性模型比密集模型更可解释[170],并且可解释的模型是可以轻易以文本和可视化的形式呈现给人类的[32]。再次强调,使可分解的模型具有可模拟性需要模型足够自容,以便人类可以思考和推理其作为一个整体。
- 可分解性代表解释模型的每个部分(输入、参数和计算)的能力。它可以被视为[171]中所说的可理解性。这种特性可能增强了理解、解释或解释模型行为的能力。然而,与算法透明度一样,并不是每个模型都能满足这个属性。可分解性要求每个输入都容易解释(例如,繁琐的特征将不符合前提)。使算法透明的模型成为可分解模型的额外约束是,模型的每个部分都必须是人类可以理解的,而不需要额外的工具。
- 算法透明度可以用不同的方式看待。它涉及用户理解模型从输入数据到产生任何给定输出的处理过程的能力。换句话说,线性模型被认为是透明的,因为它的错误表面可以被理解和推理,允许用户理解模型在可能面临的每种情况下将如何行动[163]。相反,深度架构无法理解,因为loss landscape可能是不透明的[172,173],因为它不能完全观察到,解决方案必须通过启发式优化来近似(例如,通过随机梯度下降)。算法透明模型的主要约束是,模型必须能够通过数学分析和方法进行全面探索。
2.5.2. 机器学习模型的事后可解释性技术
事后可解释性技术针对的不是通过设计可解释的模型,而是通过各种手段来增强其可解释性,如文本解释、视觉解释、局部解释、示例解释、简化解释和特征相关性技术。这些技术涵盖了人类自己解释系统和过程的最常见方式。
此外,实际的技术,或者更确切地说,实际的技术组被指定,以便于任何打算查找适合其知识的特定技术的研究人员的未来工作。此外,分类还包括技术应用的数据类型。注意,许多技术可能适用于许多不同类型的数据,尽管分类只考虑作者提出该技术时使用的数据类型。总的来说,事后可解释性技术首先根据作者的意图(例如,解释技术,例如简化解释)进行划分,然后是使用的方法(实际技术,例如敏感性分析sensitivity analysis),最后是它应用的数据类型(例如图像)。
- 文本解释text explanations主要通过学习生成文本来解释模型的结果,为模型带来可解释性[169]。文本解释还包括每种生成代表模型功能符号的方法。这些符号可能通过模型到符号的语义映射来描绘算法的基本原理。
- 事后可解释性的视觉解释visual explanation技术旨在通过可视化模型的行为来实现模型的可解释性。许多文献中存在的可视化方法都伴随着降维技术(dimensionality reduction techniques),这些技术允许人类可解释的简单可视化。可视化可能与其他技术结合使用,以提高理解力,并被认为是向不熟悉ML建模的用户介绍变量之间复杂相互作用的最适宜方式。
- 局部解释local explanations通过将解决方案空间分割,并为与整个模型相关的较简单的子空间提供解释来处理可解释性。这些解释可以通过具有区分属性(differentiating property)的技术形成,这些技术只解释整个系统功能的一部分。
- 示例解释explanations by example考虑提取与模型生成的结果相关的数据示例,从而更好地理解模型本身。类似于人类在尝试解释给定过程时的行为,示例解释主要集中于提取能够把握模型发现的内部关系和相关性的代表性示例。
- 简化解释explanations by simplification集体表示那些基于可解释的训练模型重建一个全新系统的技术。这个新的、简化的模型通常试图在降低其复杂性的同时,保持与其前身功能的相似性,并保持类似的性能得分。这个系列事后技术的一个有趣的副产品是,简化的模型通常由于其相对于它所代表的模型的复杂性降低而更容易实施。
- 特征相关性解释feature relevance explanation方法通过计算模型管理的变量的相关性分数来阐明模型的内部功能。这些分数量化了特征对模型输出的影响(敏感性)。不同变量之间的分数比较揭示了模型在产生其输出时对每个变量的重要性。特征相关性方法可以被认为是一种间接解释模型的方法。
上述分类(在图4中以图形方式展示)将在以下部分中用于评估ML模型的特定/与模型无关的XAI技术(表2)。对于每个ML模型,我们都给出了这些方法的区别,以便给出领域的总体趋势。
3. 透明机器学习模型
上一节介绍了透明模型的概念。如果模型本身是可理解的,则认为模型是透明的。本节调查的模型是一系列透明模型,它们可以属于一个或所有先前描述的模型透明度水平(即,可模拟性、可分解性和算法透明度)。接下来,我们将提供支持这一声明的理由,并在图5中提供图形支持。
3.1. 线性/逻辑回归linear/logistic regression
逻辑回归(LR)是用于预测二元(二进制)因变量(dependent variable)的分类模型。然而,当因变量是连续的时,线性回归将是其同义词。该模型假设预测因子和预测变量之间存在线性依赖关系,这限制了对数据的灵活拟合。这个特定原因(模型的刚性)是保持模型透明的原因。然而,如第2节所述,可解释性与受众有关,这使得模型根据需要解释它的人不同而属于两个类别。因此,逻辑和线性回归,尽管显然满足透明模型(算法透明度、可分解性和可模拟性)的特征,也可能需要事后可解释性技术(主要是可视化),特别是当模型需要向非专家受众解释时。
这种模型的使用在社会科学中已经广泛应用了很长时间,这推动了研究人员创建向非专家用户解释模型结果的方法。大多数作者赞成用于分析和表示LR的稳健性的不同技术,包括整体模型评估、单个预测变量的统计测试、拟合优度统计和预测概率的验证。整体模型评估显示了应用模型相对于基线的改进,表明它实际上在没有预测的情况下改进了模型。单个预测变量的统计显著性通过计算Wald卡方统计量来显示。拟合优度统计显示了模型对数据的拟合质量以及这种拟合的重要性。这可以通过使用不同的技术来实现,例如所谓的Hosmer-Lemeshow(H-L)统计量。预测概率的验证涉及测试模型的输出是否与数据所示相符。这些技术展示了表示模型拟合度及其行为的数学方法。
可以采用统计学以外的其他学科的技术来解释这些回归模型。可视化技术在向不精通统计的用户展示统计结论时非常强大。例如,[178]中的研究表明,使用概率来传达结果,意味着在10%的情况下,用户能够正确估计结果,而使用频率时,这一比例为46%。虽然逻辑回归是监督学习中最简单的分类模型之一,但也有一些必须注意的概念。
在这条推理路线中,[179]的作者揭示了用LR进行解释的一些担忧。他们首先提到,将对数比值比(优势比,log odds ratios, OR)和奇数比(odd ratios)解释为实质性效应是多么危险,因为它们也代表了未观察到的异质性。与第一个问题相关,[179]还指出,在不同变量的模型中比较这些比率可能也会有问题,因为未观察到的异质性可能会发生变化,从而使比较无效。最后,他们还提到,在不同样本、群体和时间之间比较这些几率也是有风险的,因为异质性的变化在样本、群体和时间点之间是未知的。最后一篇论文的目的是可视化一个模型的解释可能带来的问题,即使它的构造和LR一样简单。
同样值得注意的是,对于逻辑或线性回归等模型,要保持其可分解性和可模拟性,必须限制其维数大小,并且使用的变量必须为用户所理解。如第2节所述,如果模型的输入是复杂或难以理解的高度工程化的特征,那么手头的模型将远远不能分解。同样,如果模型太大,以至于人类无法将其视为一个整体,那么它的可模拟性就会受到质疑。
3.2. 决策树decision trees
决策树是很容易地满足透明度的每个约束的模型的另一个例子。决策树是用于支持回归和分类问题的层次结构决策制定工具[132,180]。在它们最简单的形式中,决策树是可模拟的模型。然而,它们的特性可以使它们成为可分解的或算法透明的。
决策树一直在透明模型的不同类别之间徘徊。它们的使用与决策制定环境密切相关,这就是为什么它们的复杂性和可理解性一直被认为是一个重要问题。这种相关性可以从关于决策树简化和生成的文献数量激增中找到[132,180-182]。如上所述,尽管决策树能够满足透明模型的所有类别,但决策树的个别特性可以使它们倾向于算法透明模型的类别。可模拟的决策树是一个用户可以管理的模型。这意味着它的维数和特征的数量相对较小,它们的含义也是很容易理解。增加维数将模型转变为可分解的模型,因为其维数阻碍了用户对模型的完整评估(模拟)。最后,进一步增加其维数并使用复杂的特征关系将使模型变为算法透明的,失去了前面的特征。
由于其现成的透明度,决策树一直在决策支持背景中得到广泛使用。这些模型的许多应用超出了计算和AI(甚至信息技术)的领域,这意味着其他领域的专家通常对解释这些模型的输出感到舒适[183-185]。然而,与其它模型相比,它们的泛化属性较差,这使得这系列模型在预测性能之间的平衡是最重要的设计驱动因素的场景中应用较少。树集成(tree ensembles)通过在不同子集的训练数据上学习树来聚合预测,从而克服了这种性能较差的问题。不幸的是,决策树的组合失去了每一个透明属性,需要采用本文后面探讨的事后可解释性技术。
3.3. K-最近邻K-Nearest Neighbors
另一个属于透明模型的方法是K-最近邻(KNN),它以一种方法论上的简单方式处理分类问题:它通过投票其K个最近邻的类别来预测测试样本的类别(其中邻域关系是由样本之间的距离度量引起的)。在回归问题的背景下使用时,投票被替换为与最近邻相关的目标值的聚合(例如平均值)。
在模型可解释性方面,重要的是观察到KNN模型生成的预测依赖于样本之间的距离和相似性的概念,这可以根据正在处理的具体问题进行定制。有趣的是,这种预测方法类似于基于经验的人类决策制定,它根据过去的类似案例决定结果。这就是为什么KNN在要求可解释的模型中被广泛采用的原因[186-189]。此外,除了简单易懂之外,检查新样本为何被归类到某个组中,以及这些预测如何随着邻居数量K的增加或减少而演变,增强了用户与模型之间的互动。
必须记住,如前所述,KNN的透明度类别取决于特征、邻居数量和用于测量数据实例之间相似性的度量函数。一个非常大的K值阻碍了人类用户对模型性能的完整模拟。同样,使用复杂特征和/或度量函数将阻碍模型的可分解性,限制其可解释性仅为其算法操作的透明度。
3.4. 基于规则的学习Rule-based learning
基于规则的学习指的是生成规则以表征它学习的数据的模型。规则可以采取简单的条件if-then规则的形式,或者更复杂的简单规则组合。与这一系列通用模型相关,基于模糊规则的系统旨在为更广泛范围的行为设计,允许在不精确领域中定义口头制定的规则。模糊系统在两个主要轴上增强了本文的相关性。首先,它们提供了更易于理解的模型,因为它们使用语言术语进行操作。其次,它们在某些不确定性的背景中比经典规则系统表现得更好。基于规则的学习无疑是透明的模型,它们经常被用来通过生成规则来解释复杂模型的预测[126,127,190,191]。
规则学习方法已广泛用于专家系统中的知识表示[192]。然而,规则生成方法的一个核心问题是规则的覆盖范围(数量)和特异性(长度)。这个问题直接与它们首要的使用意图相关。在构建规则数据库时,用户通常追求的设计目标是能够分析和理解模型。模型中的规则数量将明显提高模型的性能,但以牺牲其可解释性为代价。同样,规则的特异性也对可解释性不利,因为具有许多前提和/或后果的规则可能变得难以解释。在同样的推理中,基于规则的学习的这两个特征与第2节中介绍的透明模型类别一起使用。覆盖范围或特异性越大,模型就越接近仅仅是算法透明。有时,从经典规则转向模糊规则的原因是放宽规则大小的约束,因为可以在减轻可解释性压力的情况下有更大的规则覆盖范围。
基于规则的学习在各个领域中的可解释性方面是很好的模型。它们与人类行为的自然和无缝关系使它们非常适合理解和解释其他模型。如果获得了一个确定的覆盖范围阈值,规则包可以被认为包含一个模型足够的信息来向非专家用户解释其行为,而不会丧失将生成的规则作为独立预测模型的可能性。
3.5. 广义可加模型general additive models
在统计学中,广义可加模型(GAM)是一个线性模型,其中要预测的变量值由为预测变量定义的一系列未知平滑函数的聚合给出。这样的模型的目的是推断平滑函数,其聚合组合近似预测变量。这种结构是容易解释的,因为它允许用户验证每个变量的重要性,即它如何通过其相应的函数影响预测输出。
类似于其他透明模型,文献中充满了GAM的研究个例,特别是在风险评估领域。与其他模型相比,这些模型的可理解性足以使用户在金融、环境研究、地理学、健康管理、生物学和能源等实际应用领域使用模型时更加自信。这些文献使用可视化方法进一步简化了模型的解释。如果满足其定义中的属性,GAM可以被认为是可模拟的和可分解的模型,但程度大致取决于对基线GAM模型的最终修改,例如引入链接函数(link functions)将聚合与预测输出关联,或考虑预测变量之间的交互作用。
总而言之,正如上述举例中的一样,GAMs的应用程序都有一个共同的因素:可理解性。使用GAMs进行这些研究的主要驱动力是理解建立用来观察的案例的潜在关系。在这些情况下,研究目标不是为了自身的准确性,而是需要理解数据中涉及的变量背后的问题和关系。这就是为什么GAM在某些学界被接受为事实上的建模选择,尽管它们的性能表现被认为不如更复杂的模型。
3.6. 贝叶斯模型bayes models
贝叶斯模型通常采用概率有向非循环图(probabilistic directed acyclic graphical, DAG)模型,其中的链接代表一组变量之间的条件依赖关系。例如,贝叶斯网络可以表示疾病和症状之间的概率关系。给定症状,网络可以用来计算各种疾病存在的概率。类似于GAM,这些模型也清晰地表示了特征和目标之间的关系,这种情况下是通过连接变量之间的联系明确给出的。
再次强调,贝叶斯模型属于透明模型的范畴,它们可以被视为可模拟的、可分解的和算法透明的。然而,值得注意的是,在某些情况下(过于复杂或繁琐的变量),模型可能会失去前两个属性。贝叶斯模型已被证明在各种应用中提供了深刻的洞察力,如认知建模[201,202]、渔业[196,203]、游戏[204]、气候[205]、计量经济学[206]或机器人技术[207]。此外,它们还被用来解释其他模型,例如平均树集合[208]。
标签:解释,AI,Intelligence,模型,解释性,Artificial,XAI,ML From: https://blog.csdn.net/2401_90006704/article/details/144923997