首页 > 其他分享 >可解释性人工智能(Explainable Artificial Intelligence )综述学习笔记(2)

可解释性人工智能(Explainable Artificial Intelligence )综述学习笔记(2)

时间:2025-01-05 10:57:58浏览次数:8  
标签:解释 Intelligence 模型 解释性 Artificial 技术 可视化 方法

Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI

可解释性人工智能(Explainable Artificial Intelligence, XAI):概念,分类,机遇和挑战,迈向负责任的人工智能

原文地址:Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI - ScienceDirect
前三章内容笔记在:可解释性人工智能(Explainable Artificial Intelligence )综述学习笔记(1)-CSDN博客

4. 机器学习模型的事后可解释性技术:分类、浅层模型和深度学习

当ML模型不符合任何声明它们为透明的标准时,必须设计并应用一种独立的方法来解释其决策。这就是事后可解释性技术(也称为事后建模可解释性)的目的,其旨在传达关于已经开发的模型如何为任何给定输入产生其预测的可理解信息。在本节中,我们对不同的算法方法进行分类和讨论,区分1)可以无缝应用于任何ML模型的方法;2)特别设计用于解释特定ML模型的方法,不能外推到其他的学习模型。我们现在详细阐述围绕不同ML模型的事后可解释性的趋势,如图6所示,以层次化的文献分类的形式,并在下面总结:

  1. 模型无关的事后可解释性技术(Model-agnostic techniques for post-hoc explainability, 第4.1节),可以在不考虑模型内部过程和表现形势的情况下,无缝应用于任何ML模型中。
  2. 为解释特定ML模型而设计的事后可解释性技术,分为两个主要分支:涉及浅层ML模型(shallow ML models)的事后可解释性的文献,这集体指的是所有不依赖于神经处理单元层叠结构的ML模型(第4.2节);以及为深度学习模型设计的技术,相应地表示神经网络系列及其相关变体,如卷积神经网络(convolutional neural networks)、循环神经网络(recurrent neural networks, 第4.3节)和包含深度神经网络和透明模型的混合方案。对于每个模型,我们全面阐述了学界提出的最新的事后解释方法,并探讨了这些文献所遵循的趋势。
  3. 我们在第4.4节结束我们的文献分析,提出了第二个分类,补充了图6中更一般的分类,通过分类处理深度学习模型的事后解释的文献。为此,我们专注于与这一系列黑盒ML方法特别相关的特定方面,并展示了它们如何与第一个分类中使用的分类标准相关联。

4.1. 模型无关的事后可解释性技术model-agnostic techniques for post-hoc explainability

模型无关的事后可解释性技术旨在插入到任何模型中,以提取其预测过程中的某些信息。有时,简化技术被用来生成代理模型,这些代理模型模仿它们的前身,目的是拥有一个可管理且复杂性降低的模型。其他时候,目的是集中在直接从模型中提取知识,或者简单地可视化它们以便于解释它们的行为。根据第2节中引入的分类,模型无关的技术可能依赖于模型简化、特征相关性估计和可视化技术:

  1. 简化解释explanation by simplification。它们可以说是事后方法下最广泛使用的类别。局部解释也在这一类中,因为有时,简化的模型只代表模型的某些部分。几乎所有基于模型简化的技术都基于规则提取技术(rule extraction techniques)。其中最著名的文献之一是局部无关模型可解释技术(local interpretable model-agnostic explanations, LIME)技术及其所有变体[32,214,216]。LIME围绕不透明模型的预测构建局部线性模型以解释它。这些文献都属于简化解释和局部解释。除了LIME及其相关变体之外,另一种规则提取方法是G-REX[212]。尽管它最初并非旨在从不透明模型中提取规则,但G-REX的通用主张已被扩展,以考虑模型可解释性目的[190,211]。与规则提取方法一样,[215]提出了一种新方法,学习合取范式(conjunctive normal form, CNF)或析取范式(disjunctive normal form, DNF)中的规则,以桥接复杂模型和人类可解释模型。另一项贡献在[218]中,作者将模型简化表述为模型提取过程,通过透明模型来近似复杂模型。[120]从不同的角度处理简化,提出了一种提炼和分析黑盒模型的方法。在其中,提出了两个主要思想:一种模型提炼和比较方法,用于评价黑盒风险评分模型;以及一个统计测试,用于检查分析数据是否缺少它被训练的关键特征。模型简化的流行性是显而易见的,因为它与XAI的最新文献在时间上一致,包括LIME或G-REX等技术。这象征性地表明,这种事后可解释性方法预计将在XAI中继续发挥中心作用。
  2. 特征相关性解释技术feature relevance explanation techniques。旨在通过排名或测量被解释的模型预测输出中每个特征的影响、相关性或重要性来描述不透明模型的功能。这一类中发现了各种提议,每个都使用不同的算法方法,但目标相同。这方面的一个成果是[224],称为SHAP(SHapley Additive exPlanations)。其作者提出了一种方法,为每个特定预测计算一个加性特征重要性分数,具有一组期望的属性(局部准确性local accuracy、缺失性missingness和一致性consistency),其前身缺乏这些属性。另一种处理每个特征对预测贡献的方法是联盟博弈论[225]和局部梯度[234]。同样,通过局部梯度[230]测试产生模型输出变化所需的每个特征的变化。在[228]中,作者通过组合特征来分析模型中的关系和依赖性,这些特征共同揭示了数据的洞察力。[173]提出了一种广泛的度量方法,用于处理输入对系统输出影响程度的量化。他们的量化输入影响(Quantitative Input Influence, QII)度量考虑了相关输入,同时测量影响。相比之下,在[222]中,作者基于现有的敏感性分析(sensitivity analysis, SA)构建了一个全局SA,扩展了现有方法的适用性。在[227]中,作者提出了一种实时图像显著性方法,适用于可微分的图像分类器。[123]的研究提出了所谓的自动结构识别方法(automatic structure identification method, ASTRID),用于检查分类器用于生成预测的属性。这种方法找到了最大的特征子集,使得使用这个特征子集训练的分类器在准确性上不能与在原始特征集上构建的分类器区分开来。在[221]中,作者使用影响函数将模型的预测回溯到训练数据,仅需要模型的oracle版本,可以访问梯度和Hessian-向量积。通过修改模型输入来创建反事实示例(counterfactual examples)的启发式(heuristics)方法也被发现对其可解释性做出了贡献[236,237]。与尝试通过简化来解释的相比,发现同样数量的出版物通过特征相关性来处理可解释,许多文献可以追溯到2017年,一些可以追溯到2018年,这意味着与模型简化技术一样,特征相关性已成为当前XAI领域中的一个活跃的研究课题。
  3. 视觉解释技术visual explanation techniques。是实现模型无关解释的工具。这方面的代表性工作可以在[222]中找到,它提出了一系列可视化技术,构建在上述扩展技术(全局SA)之上的用来帮助解释黑盒ML模型。另一组可视化技术在[223]中提出。作者提出了三种新的SA方法(基于数据的SA、蒙特卡洛(Monte-Carlo)SA、基于聚类(cluster-based)的SA)和一种新输入重要性度量(平均绝对偏差average absolute deviation)。最后,[238]提出了个体条件期望(individual conditional expectation, ICE)图,作为可视化任何监督学习算法估计的模型的工具。视觉解释技术在模型无关技术中较少见于事后可解释性领域。由于这些方法的设计必须确保它们可以无缝应用于任何ML模型,而不考虑其内部结构,仅从不透明模型的输入和输出创建可视化是一个复杂的任务。这就是为什么几乎所有的可视化方法都与特征相关性技术一起工作,这些技术提供了最终显示给最终用户的信息。

从我们的文献分析中出现了几个趋势。首先,规则提取技术在事后可解释性的文献中占据主导地位。这是可以直观预期的,正如第3.4节所预期的,基于规则学习的解释性包的广泛使用,以及无法深入了解模型本身而带来的复杂性。同样,另一个大量的文献涉及特征相关性。最近,当处理DL模型时,这些技术受到了学界的广泛关注,混合方法利用这一类模型的特定方面,因此,妥协了特征相关性方法对被解释模型的独立性。最后,可视化技术提出了有趣的方式,通过可视化特征相关性的输出来简化模型的解释。相比之下,其他方面的可视化技术(例如,其结构、操作等)与要解释的特定模型紧密相关。

4.2. 浅层ML模型的事后可解释性

浅层ML涵盖了多种监督学习模型。在这些模型中,有些是严格可解释的(透明的)方法(例如,KNN和决策树,在第3节中已经讨论)。然而,其他浅层ML模型依赖于更复杂的学习算法,需要额外的解释层次。鉴于它们在预测任务中的突出性能,本节集中讨论两个流行的浅层ML模型(树集成和支持向量机,SVM),它们需要采用事后可解释性技术来解释其决策。

4.2.1. 树集合tree ensembles、随机森林random forests和多分类器系统multiple classifier systems

树集合无疑是目前使用中最准确的ML模型之一。它们的出现是作为提高单个决策树泛化能力的高效手段,单个决策树通常容易过拟合。为了解决这个问题,树集合结合了不同的树来获得聚合的预测/回归。虽然这种方法有效地对抗过拟合,但模型的组合使得整体集合的解释比构成它的单个树学习器更为复杂,迫使用户从事后可解释性技术中寻求帮助。对于树集合,文献中的技术包括通过简化和特征相关性技术来解释;我们现在检查这些技术的最近进展。

首先,许多文献已经提出,通过简化树集合,考虑增加的复杂性,同时保持部分准确性。[119]的作者提出了一个想法,即从集合模型标记的数据(理想情况下,遵循真实数据分布)中的一组随机样本中,训练一个单一的、不那么复杂的模型。另一种简化方法是[118]中提出的,作者创建了一个简化的树集合学习器(simplified tree ensemble learner, STEL)。同样,[122]提出了使用两个模型(简单和复杂)的方法,前者负责解释,后者负责预测,通过期望最大化(Expectation-Maximization)和Kullback-Leibler散度来实现。与模型无关的技术相比,不是那么多的技术通过模型简化来解释树集合。这意味着要么提出的技术已经足够好,或者模型无关的技术已经覆盖了简化的范围。

在简化程序之后,特征相关性技术也用于树集合领域。Breiman[286]是第一个分析随机森林中变量重要性的人。他的方法基于在随机森林的外包样本中随机置换某个变量时,测量平均减少准确性(mean decrease accuracy, MDA)或平均增加误差(mean increase error, MIE)。在这篇文献之后,[241]在实际设置中展示了如何使用变量重要性来反映由随机森林建模的复杂系统的潜在关系。最后,事后可解释性的一个交叉技术,[240]提出了一个框架,将一个示例从一类转换为另一类的推荐。这个想法试图以更描述性的方式解决变量重要性。在文章中,作者展示了如何使用这些方法来提升恶意在线广告的推荐,使它们在付费率上排名更高。

类似于模型无关技术,对于树集合来说,简化和特征相关性技术似乎是最常用的方案。然而,与之前观察到的相反,大多数论文可以追溯到2017年,主要关注装袋法集合(bagging ensembles)。当转向其他集合策略时,最近在提升(boosting)和堆叠(stacking)分类器的可解释性方面的活动很少。对于后者,值得强调的是,复合学习器为什么基于给定数据产生特定预测以及其对集合输出的贡献之间的联系。在[242]中提出的所谓的带有辅助特征的堆叠(stacking with auxiliary features, SWAF)方法指向了这个方向,通过利用和集成堆叠集合的解释来改善它们的泛化。这种策略不仅依赖于复合学习器的输出,还依赖于该输出的来源及其在整个集成中的共识。在集合技术的解释性上的其他有趣的研究包括模型无关的方案,如DeepSHAP[226],实际应用于堆叠集合和多分类器系统以及深度学习模型;将多个分类器的解释图组合以产生对它们所属集合的改进解释[243];以及最近关于传统和梯度提升集合的见解[287,288]。

4.2.2. 支持向量机support vector machines

SVM模型在文献中有着悠久的历史,并且结构上比树集合更复杂,更不透明。许多事后可解释性技术的实现被提出,将这些模型内部的数学描述与不同作者对手头问题的解释联系起来。从技术上讲,SVM构建了一个或一组在高维或无限维空间中的超平面,这些超平面可用于分类、回归或其他任务,如异常值检测(outlier detection)。直观地说,通过具有最大距离(所谓的功能边距functional margin)到最近训练数据点的任何类别的超平面实现了良好的分离,因为通常认为,边距越大,分类器的泛化误差越低。由于其出色的预测和泛化能力,SVM是使用最广泛的ML模型之一。从第2节中提到的技术来看,应用于SVM的事后可解释性涵盖了简化、局部解释、可视化和示例解释。

在简化解释中,有四类简化。每种都根据它们深入算法内部结构的程度而有所不同。首先,一些作者提出了从训练模型的支持向量中提取规则的技术。这是[93]的方法,提出了一种使用修改后的顺序覆盖算法(modified sequential covering algorithm)直接从训练的SVM的支持向量中提取规则的方法。在[57]中,相同的作者提出了折中规则提取(eclectic rule extraction),仍然只考虑训练模型的支持向量。工作[94]生成了模糊(fuzzy)规则而不是经典命题(classical propositional)规则。在这里,作者认为长前提减少了可理解性,因此,模糊方法允许更易于语言上的理解结果。第二种简化方法是[98]提出的,提出了在支持向量之外添加SVM的超平面以创建规则。他的方法依赖于从支持向量和超平面的交集中创建超矩形。在第三种模型简化方法中,另一组作者考虑将实际训练数据作为构建规则的组件。在[126,244,246]中,作者提出了一种聚类方法(clustering method),为每个类别的原型向量进行分组。通过将它们与支持向量结合起来,它允许在输入空间中定义椭圆和超矩形。同样,在[106]中,作者提出了所谓的超矩形规则提取(hyper-rectangle rule extraction),这是一种基于支持向量聚类(support vector clustering, SVC)的算法,用于为每个类别找到原型向量,然后在周围定义小超矩形。在[105]中,作者将规则提取问题表述为多约束优化(multi-constrained optimization),以创建一组不重叠的规则。每条规则传达一个非空超立方体,与超平面共享一条边。[245]中实施了类似的研究,作者提出了一种新技术,作为多核(multi-kernel)SVM的一个组成部分,用于基因表达数据(gene expression data)的规则提取。这种多核方法包括特征选择、预测建模和规则提取。最后,在[134]中,作者利用增长SVC(growing SVC)来解释SVM决策,以线性规则定义提取的原型中的Voronoi部分空间。

除了规则提取之外,文献还考虑了一些其他技术,以解释SVM。其中三个(可视化技术)显然用于解释SVM在具体应用中的使用。例如,[77]提出了一种创新方法来可视化训练的SVM以从核矩阵中提取信息内容。他们将研究集中在支持向量回归(support vector regression)模型上。他们展示了算法在可视化哪些输入变量实际上与相关的输出数据相关上的能力。在[68]中,一种视觉方式将SVM的输出与热图(heatmaps)结合起来,以指导药物发现后期阶段的化合物修改。他们根据训练有素的线性SVM的权重给原子着色,从而更全面地调试过程。在[116]中,作者认为许多解释SVM的研究只考虑了权重向量,忽略了边距。在他们的研究中,他们展示了这个边距的重要性,并创建了一个统计量,明确考虑了SVM的边距。作者展示了这个统计量足够具体,可以解释神经影像中的多变量模式。

值得注意的是SVM和贝叶斯系统之间的交集,后者被用作事后技术来解释SVM模型的决策。这就是[248]和[247]的情况,这些研究中SVM被解释为具有高斯过程先验(priors)的推断问题的最大后验概率(maximum a posteriori, MAP)解。这个框架使调整超参数变得可理解,并允许预测类别概率而不是SVM的经典二元分类。当处理非条件正定(non-CPD, conditional positive definite)核时,SVM模型的可解释性变得更加复杂,这些核由于缺乏几何和理论理解,通常更难解释。[102]的工作围绕这个问题,提供了不定核SVM的几何解释,表明它们不是通过超平面边距优化来分类的。相反,它们最小化了伪欧几里得(pseudo-Euclidean)空间中凸包之间的距离。

处理其他模型和应用于SVM的事后技术相比,区别是,前者模型简化方法在提案中占据主导地位。在SVM中,局部解释开始在提案中占据一些权重。然而,基于简化的方法平均来说比局部解释更古老。

最后,没有一种方法处理SVM可解释性超过2017年,这可能是由于DL模型在几乎所有学科中的逐渐普及。另一个可能的原因是这些模型已经被理解,因此很难在已经完成的工作上进行改进。

4.3. 深度学习的可解释性

事后局部解释和特征相关性技术越来越成为解释DNNs的最采用的方法。本节审查了针对最常用的DL模型提出的可解释性研究,即多层神经网络(multi-layer neural networks)、卷积神经网络(convolutional neural networks, CNN)和循环神经网络(recurrent neural networks, RNN)。

4.3.1. 多层神经网络

从它们的起源开始,多层神经网络(也称为多层感知器)就因其能够推断变量之间的复杂关系而受到学术界的热烈欢迎。然而,如引言中所述,负责将这些模型部署到实际生产中的开发人员和工程师发现,它们可疑的可解释性是他们犹豫的共同原因。这就是为什么神经网络一直被认为是黑盒模型。事实上,可解释性通常是模型具有实际价值的必要条件,这迫使社区为多层神经网络生成多种可解释性技术,包括模型简化方法、特征相关性估计器、文本解释、局部解释和模型可视化。

一些模型简化技术已经被提出用于具有单个隐藏层的神经网络,但是很少有工作被提出用于具有多个隐藏层的神经网络。这些少数工作之一是DeepRED算法[257],它通过添加更多的决策树和规则,扩展了[259]中提出的多层神经网络的分解方法到神经元级别。

其他一些工作使用模型简化作为事后可解释性方法。例如,[56]提出了一个简单的提炼方法,称为可解释的模仿学习(interpretable mimic learning),通过梯度提升树提取可解释模型。同样,[135]的作者提出了一个层次化(hierarchical)的特征空间划分(partitioning),揭示了迭代拒绝不太可能的类别标签,直到关联性被预测。此外,一些工作解决了从模型集合中提取知识到单个模型的问题[80,289,290]。

鉴于多层神经网络的简化随着层数的增加而变得更加复杂,通过特征相关性方法解释这些模型已经逐渐变得更加流行。这方面的代表性工作之一是[60],它提出了一种将网络分类决策分解为其输入元素贡献的方法。他们将每个神经元视为一个可以分解、展开、然后聚合并通过网络反向传播这些分解的对象,从而实现深度泰勒分解(deep Taylor decomposition)。另一方面,[110]的作者提出了DeepLIFT,一种计算多层神经网络中重要性分数的方法。他们的方法将神经元的激活与参考激活进行比较,并根据差异分配分数。

另一方面,一些工作试图验证当前可解释性方法的理论合理性。例如,[262]的作者提出了大多数为多层网络设计的特征相关性技术的基本问题。他们表明,这些技术应该满足的两个公理,即敏感性(sensitivity)和实现不变性(implementation invariance),在实践中被大多数方法违反。遵循这些公理,[262]的作者创建了集成梯度,这是一种新的特征相关性方法,被证明符合上述公理。同样,[61]的作者分析了当前为深度神经网络设计的可解释性方法的正确性,例如De-ConvNet、Guided BackProp和LRP,在简单的线性神经网络上。他们的分析表明,这些方法不会产生理论上正确的解释,并提出了两种新的解释方法PatternNet和PatternAttribution,它们在简单和深度神经网络上都更具有理论合理性。

4.3.2. 卷积神经网络

目前,CNNs构成了所有基本计算机视觉任务的最先进的模型,从图像分类(image classification)和目标检测(object detection)到实例分割(instance segmentation)。通常,这些模型被构建为一系列卷积层(convolutional layers)和池化层(pooling layers),以自动学习越来越高层次的特征。在序列的末端,一个或多个全连接层(connected layers)被用来将输出特征映射到分数。

These models are built as a sequence of convolutional layers and pooling layers to automatically learn increasingly higher level features. At the end of the sequence, one or multiple fully connected layers are used to map the output features map into scores.

这种结构涉及极其复杂的内部关系,非常难以解释。幸运的是,CNN的可解释性之路比其他类型的模型更容易,因为人类的认知能力有利于理解视觉数据。

旨在理解CNN学到了什么的现有工作可以分为两大类别:1)那些试图通过将输出映射回输入空间来理解决策过程,看看哪些输入部分对输出有决定性影响;2)那些试图深入网络内部,解释中间层如何看待外部世界,不一定与任何特定输入有关,而是一般性的。

第一类别中的开创性工作是[291]。当输入图像通过CNN进行前馈(feed-forward)时,每一层都会输出一些具有强激活和弱激活的特征图。[291]的作者使用了Deconvnet,这是一个先前由相同作者设计的网络[142],当用选定层的特征图进行喂养时,重建最大激活。这些重建可以给出关于产生这种效果的图像部分的想法。为了在输入图像中可视化这些最强激活,相同的作者使用了遮挡敏感性方法生成显著性图[136],该方法包括通过网络迭代转发相同的图像,每次遮挡一个不同的区域。

为了提高在输入空间的映射质量,几篇随后的论文提出了简化CNN架构和简化可视化方法。特别是,[96]在CNN的最后一个卷积层和预测对象类别的全连接层之间包括了一个全局平均池化层(global average pooling layer)。通过这个简单的CNN架构修改,作者构建了一个类激活图,通过将输出层的权重投影回卷积特征图,帮助识别对特定对象类别特别重要的图像区域。后来,在[143]中,作者展示了最大池化层(max-pooling layers)可以替换具有大步幅(large stride)的卷积层,而不会在几个图像识别基准测试中损失准确性。他们使用引导反向传播(guided backpropagation)方法,获得了比Deconvnet更清晰的可视化。

为了增加传统CNN的可解释性,[113]的作者在高层卷积层的每个滤波器中使用了一个损失,以强制每个滤波器学习非常特定的对象组件。获得的激活模式对于它们与要预测的不同标签的独占性(exclusiveness)来说更易于解释。[72]的作者提出了以热图形式可视化输入图像中每个像素(pixel)对预测的贡献。他们使用了逐层相关性传播(layer-wise relevance propagation, LRP)技术,该技术依赖于在预测点附近的泰勒级数(Taylor series),而不是在预测点处的偏导数(partial derivatives)本身。为了进一步提高可视化的质量,使用了归因方法(见图7),如热图、显著性图或类激活方法(GradCAM[292])。特别是,[292]的作者提出了梯度加权类激活映射(gradient-weighted class activation mapping, Grad-CAM),它使用任何目标概念的梯度,流入最终的卷积层,以产生粗略的位置图,突出显示图像中对预测概念重要的区域。

除了上述特征相关性和视觉解释方法之外,一些工作提出了生成图像视觉内容的文本解释。例如,[91]的作者结合了CNN特征提取器(CNN feature extractor)和RNN注意力模型(RNN attention model),自动学习描述图像内容。同样,[278]提出了一个三级注意力模型,以执行细粒度(fine-grained)分类任务。总体模型是一个管道,集成了三种类型的注意力:对象级(object-level)注意力模型从输入图像中提出候选图像区域或补丁(patches),部分级(part-level)注意力模型过滤掉与某个对象无关的补丁,最后的注意力模型定位有识别能力的补丁。在视频字幕任务中,[111]的作者使用CNN模型与双向(bi-directional)LSTM模型作为编码器来提取视频特征,然后将这些特征输入LSTM解码器以生成文本描述。

第二类别的开创性工作是[137]。为了分析CNN内部包含的视觉信息,作者提出了一个通用框架,从CNN的内部表示重构图像,并展示了几个层次保留了关于图像的照片准确信息,具有不同程度的几何和光度不变性。为了可视化CNN捕获的类别概念,相同的作者创建了一个基于计算类别分数相对于输入图像的梯度的图像,以最大化类别分数[272]。在同一方向上,[268]的作者引入了一个深度生成网络(deep generator network, DGN),为CNN中给定的输出神经元生成最具代表性的图像。

为了量化CNNs的潜在表示的可解释性,[125]的作者使用了一种不同的方法,称为网络解剖(network dissection)。他们将大量图像通过CNN运行,然后分析顶部激活的图像,考虑每个单元作为概念检测器,以进一步评估每个单元对语义分割的影响。这篇论文还检查了经典训练技术对学习模型可解释性的影响。

尽管上述许多技术使用局部解释来实现对CNN模型的整体解释,但其他技术明确关注基于局部发现的原型构建全局解释。在[263,294]中,作者实证展示了深度网络中的局部解释强烈受到其低级特征的支配。他们证明了深度架构提供了强大的优先级,防止了这些低级表示的捕获方式的改变。总之,可视化与特征相关性方法无疑是解释CNN的最常采用的方法。

与使用单一的可解释性技术不同的是,[295]提出的框架结合了几种方法,提供了更多关于网络的信息。例如,结合特征可视化(feature visualization神经元在寻找什么?)和归因(attribution它如何影响输出?)允许探索网络如何在标签之间做出决定。这个视觉可解释性界面显示了不同的块,如特征可视化和归因,取决于可视化目标。这个界面可以被认为是属于层(belong to layers输入、隐藏、输出)、原子(atoms神经元、通道、空间或神经元组)、内容(content激活量-神经元激活的数量,归因-空间位置对哪些类别贡献最大,哪些在后层中更有意义)和呈现(信息可视化、特征可视化)的各个元素的联合。图8显示了一些示例。归因方法通常依赖于像素关联,显示输入示例的哪一部分对于网络以特定方式激活负责[293]。

与上述所有方法相比,LIME框架[71]提出了一个更简单的方法,如第4.1节所述,LIME通过扰动输入并观察预测如何变化。在图像分类中,LIME通过将输入图像划分为可解释的组件(连续的超像素),并通过模型运行每个扰动实例以获得概率。一个简单的线性模型在这些数据集上学习,这些数据集是局部加权的。在过程结束时,LIME将呈现具有最高正权重的超像素作为解释(见图9)。

在对抗性检测(adversarial detection)中提出了一个完全不同的可解释性方法。为了理解在检测对抗性示例中的模型失败,[264]的作者在CNN的每层学习的数据表示上应用k-最近邻算法。如果测试输入图像的表示与训练图像的表示相距甚远,则被认为是对抗性的。

4.3.3. 循环神经网络

与CNN在视觉领域一样,RNN最近被广泛用于定义在固有序列数据上的预测问题,特别是在自然语言处理(natural language processing)和时间序列分析(time series analysis)中。这些类型的数据表现出长期依赖性,复杂的让ML模型难以捕捉。RNN能够通过将从数据中学习的知识保留在神经元中作为另一个参数特征来检索这种时间依赖关系。

很少有文献是解释RNN模型的。这些研究可以分为两组:1)通过理解RNN模型学到了什么(主要通过特征相关性方法)来解释;2)通过修改RNN架构以提供对其决策的洞察(局部解释)来解释。

在第一组中,[280]的作者将LRP扩展到RNN。他们提出了一种特定的传播规则,与长短期记忆(long short term memory, LSTMs)单元和门控循环单元(gated recurrent units, GRUs)中的乘法连接一起工作。[281]的作者提出了一种基于有限范围n-gram的可视化技术,以区分LSTM和GRU网络中的可解释单元。遵循结构不改变的前提,[296]将用于CNN模型的可解释模仿学习提炼(interpretable mimic learning distillation)方法扩展到LSTM网络,以便通过将梯度增强树(gradient boosting trees)拟合到所关注的训练有素的LSTM网络来学习可解释的特征。

除了不改变RNN内部工作的方法之外,[285]提出了RETAIN(REverse Time ATTention)模型,通过两级神经注意力模型(two-level neural attention model)检测有影响的过去模式。为了创建一个可解释的RNN,[283]的作者提出了一种基于顺序迭代软阈值算法(sequential iterative soft-thresholding algorithm, SISTA)的RNN,该算法使用一系列稀疏潜在向量对一系列相关观察进行建模,使其权重可解释为一个原则性统计模型(principled statistical model)的参数。最后,[284]构建了一个隐马尔可夫模型(hidden markov model, HMM)和RNN的组合,以便整体模型方法利用HMM的可解释性和RNN模型的准确性。

4.3.4. 混合透明和黑盒方法hybrid transparent and black-box methods

以逻辑陈述或知识库(knowledge bases, KBs)中的约束形式使用背景知识已被证明不仅可以提高可解释性,还可以提高与纯数据驱动方法相比的性能[297-299]。一个积极的副作用是,这种混合方法在训练数据标签存在错误时为学习系统提供了鲁棒性。其他方法已证明能够同时学习和推理符号和次符号表示和推理。有趣的是,这种混合允许以端到端(end-to-end)的方式进行表达性的概率逻辑推理(probabilistic-logical reasoning)[300]。一个成功的用例是在饮食建议中,从(非深度但基于KB的)模型的推理中提取解释[301]。

未来的数据融合方法可能会考虑通过外部化其他领域的信息源来赋予DL模型可解释性。经典ML模型的深度公式化已经完成,例如深度卡尔曼滤波器(deep formulation filters, DKFs)[302]、深度变分贝叶斯滤波器(deep variational bayes filters, DVBFs)[303]、结构变分自编码器(structural variational autoencoders, SVAE)[304]或作为RNN的条件随机场[305]。这些方法为深度模型提供了概率图模型(probabilistic graphical models)固有的可解释性。例如,SVAE结合了嵌入空间中的概率图模型和神经网络,以增强DKFs的可解释性。一个特定的经典ML模型与DL对应物增强的例子是深度最近邻(deep nearest neighbors,  DkNN) [264],其中邻居构成了预测的人类可理解的解释。其直觉是基于证据的DNN预测的合理化。这种证据由称为可信度(credibility)的置信度(characterization of confidence)构成,该置信度跨越DNN中的表示层次结构,必须由训练数据支持[264]。

混合XAI模型的不同视角包括[24]提出的用透明的箱子来丰富黑箱的知识模型,以及[169]和[307]中的进一步改进。特别是,可以通过语义KB和容易出现偏差的概念限制神经网络[169],或通过堆叠同时包含白盒和黑盒模型的集成[307]。

其他混合符号和次符号方法的例子,其中知识库工具或图视角增强了神经(例如,语言[308])模型,可以在[309,310]中找到。在强化学习中,非常少的符号(图形[311]或关系[75,312])混合模型的例子存在,而在推荐系统中,例如,提出了可解释的自编码器[313]。一个特定的变换器架构符号可视化方法(transformer architecture symbolic visualization method, 应用于音乐)以图形方式展示了soft-max函数注意力的工作[314]。通过可视化自引用(self-reference),即注意力权重的最后一层,弧线展示了过去哪些音符为未来提供了信息以及注意力是如何跳过不太相关的部分的。变换器还可以帮助视觉化图像字幕[315]。

另一种混合方法包括将不可解释的黑盒系统映射到更可解释的白盒双胞胎。例如,一个不透明的神经网络可以与一个透明的基于案例的推理(case based reasoning, CBR)系统[316,317]结合。在[318]中,DNN和CBR(在这种情况下是kNN)被配对,以便在保持相同准确性的同时提高可解释性。通过示例的解释包括分析DNN的特征权重,然后在CBR中使用,以检索最近邻案例来解释DNN的预测(图10)。

4.4. 深度学习的事后可解释性技术的替代分类

DL是最近一段时间研究最集中的模型家族,它们已成为大多数最近XAI文献的中心。虽然模型无关和模型特定之间的划分是最常见的区别,但学界并不完全依赖这个标准来分类XAI方法。例如,一些模型无关的方法,如SHAP[224],被广泛用于解释DL模型。这就是为什么许多XAI方法可以根据观察方法的角度不同轻松分类在不同的分类分支中。例如,LIME也可以用于CNNs,尽管它不是专门用于处理图像的。在DL的替代分类中搜索显示,LIME可以作为一种线性代理模型(linear proxy model),明确用于解释深度网络处理。[13]中确实提出了另一种分类,基于3个类别的分割。第一类将解释网络处理数据的方法分组在一起,因此回答了“为什么这个特定的输入导致这个特定的输出?”的问题。第二类涉及解释网络内部数据表示的方法,即回答了“网络包含什么信息?”的问题。第三种方法涉及专门设计以简化其自身行为解释的模型。这种多种分类可能性导致了构建XAI分类的不同方式。

图11显示了从[13]中推断出的DL替代分类。从后者可以推断出这个分类与图6的互补性和重叠性:

  1. 一些方法[272,280]在图6中被归入不同类别(即CNN的特征相关性和RNN的特征相关性),在考虑[13]中的分类时被包括在单一类别(解释深度网络处理与显著性映射)中。
  2. 一些方法[82,144]在图6中被归入单一类别(多层神经网络的简化解释),而在[13]中被归入2个不同的类别(即,使用决策树解释深度网络处理和使用表示向量解释深度网络表示),如图11所示。

基于模型处理的解释和模型表示的解释的分类是相关的,因为它导致了模型执行跟踪(execution trace)和其内部数据结构之间的区分。这意味着根据复杂模型失败的原因,可以根据需要的信息选择合适的XAI方法:执行跟踪或数据结构。这个想法类似于常规编程范式中使用的测试和调试方法[346]。

标签:解释,Intelligence,模型,解释性,Artificial,技术,可视化,方法
From: https://blog.csdn.net/2401_90006704/article/details/144942713

相关文章

  • 可解释性人工智能(Explainable Artificial Intelligence )综述学习笔记(1)
    ExplainableArtificialIntelligence(XAI):Concepts,taxonomies,opportunitiesandchallengestowardresponsibleAI可解释性人工智能(ExplainableArtificialIntelligence,XAI):概念,分类,基于和挑战,迈向负责任的人工智能原文地址:ExplainableArtificialIntelligence(......
  • Artificial Analysis:2024年AI大模型总结报告
    2024年是大模型发展非常迅速的一年,我们见证了太多AI技术变革带来的惊艳!这一年里,各家大模型的能力提升层出不穷。LLM方面,OpenAI发布了更强的o系列模型;文生图开源模型也出现了SD的替代者Flux;视频生成模型更是百花齐放,很多大模型公司都推出了类Sora的视频生成模型。近日......
  • 关于线调频小波CNN的可解释性故障诊断
    针对当前机械故障智能诊断缺乏可解释性的现状,可以将视角投向具有明显物理意义的传统信号处理方法。传统信号处理方法和神经网络相结合的方向已涌现出不少成果,信号处理赋能神经网络是其中的代表性工作。这类网络融入了传统信号处理方法的先验知识,且将信号处理方法的重要变量设为......
  • JC4004 – Computational Intelligence
    Programmingassignment–Groupworkbyateamof4-5studentsTitle:JC4004–ComputationalIntelligenceNote:Thisassignmentaccountsfor30%ofthetotalmarkofthecourse.Deadline:SubmittheassignmentinMyAberdeenby19.December2024at23:00(Chi......
  • JC4004 Computational Intelligence
    Programmingassignment–Groupworkbyateamof4-5studentsTitle:JC4004–ComputationalIntelligenceNote:Thisassignmentaccountsfor30%ofthetotalmarkofthecourse.Deadline:SubmittheassignmentinMyAberdeenby19.December2024at23:00(C......
  • 可解释性机器学习入门:SHAP方法
        随着机器学习特别是深度学习的应用越来越广泛,其“黑箱”特性(即模型内部复杂的决策机制难以理解)带来了信任、伦理、法律和安全等方面的挑战,因此可解释性变得至关重要,本篇博客对其做了相关讲解并结合实战重点介绍了SHAP这种模型无关的解释方法,希望能对大家有所帮助......
  • 人工智能(Artificial Intelligence,简称AI)
    人工智能(ArtificialIntelligence,简称AI)是一种模拟人类智能的科学与技术,它通过模拟人类的思维和行为,实现智能化的计算机系统。人工智能在现代科技中的应用越来越广泛,涵盖了各个领域。在医疗领域,人工智能可以用于辅助诊断和治疗。通过分析大量的医疗数据和图像,人工智能可以提高......
  • COMP3702 Artificial Intelligence
    COMP3702ArtificialIntelligence(Semester2,2024)Assignment2:BeeBotMDPKeyinformation:Due:1pm,Friday20September2024Thisassignmentassessesyourskillsindevelopingdiscretesearchtechniquesforchallengingproblems.Assignment1contrib......
  • AAAI(the Association for the Advance of Artificial Intelligence)近十年研究热点词云
    AAAI(theAssociationfortheAdvanceofArtificialIntelligence)近十年研究热点词云图AAAI近十年(2015-2024)研究热点追踪......
  • COMP3702 Artificial Intelligence BeeBot MDP
    COMP3702ArtificialIntelligence(Semester2,2024)Assignment2:BeeBotMDPKeyinformation:Due:1pm,Friday20September2024Thisassignmentassessesyourskillsindevelopingdiscretesearchtechniquesforchallengingproblems.Assignment2contrib......