Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI
可解释性人工智能(Explainable Artificial Intelligence, XAI):概念,分类,机遇和挑战,迈向负责任的人工智能
-
可解释性人工智能Explainable Artificial Intelligence(XAI)
-
引言(第1、2章)
-
术语理解
-
常用术语差异
-
interpretability
-
模型的一个被动特性,指的是一个给定模型对人类观察者来说在多大程度上讲得通(透明度)
-
-
explainability
-
模型的一个主动特性,表示模型采取的任何行动或程序,旨在澄清或详细说明其内部功能
-
-
-
更多概念
-
understandability/intelligibility
-
模型的一个特性,即人类理解其功能,而无需解释其内部结构或模型处理数据的算法手段
-
模型可理解性
-
人类可理解性
-
-
-
comprehensibility
-
学习算法对于其学到的知识以人类可理解的方式表达的能力
-
-
interpretability
-
解释或以可理解的术语向人类提供含义的能力
-
-
explainability
-
作为人类和决策者之间的接口,既是决策者的准确代理,又对人类来说是可理解的
-
-
transparency
-
模型本身是可理解的
-
可模拟模型
-
可分解模型
-
算法透明模型
-
-
-
-
-
什么是可解释性
-
起点:XAI将创建一套机器学习技术,使人类用户能够理解、适当信任并有效管理新一代的人工智能伙伴。(D. Gunning)
-
理解
-
信任
-
-
对于特定的受众,可解释性指的是模型提供的细节和理由,使其功能清晰或易于理解。
-
给定受众,可解释的人工智能是产生使其功能清晰或易于理解的细节或理由的人工智能。
-
-
-
原因
-
学界研究和商业部门之间的差距
-
在严格受监管的部门,它们对实施可能危及其资产的技术持谨慎态度
-
-
在这个时代中,研究只对结果和性能指标感兴趣
-
但科学和社会远远不只关心性能,寻求理解是开启进一步模型改进和其实用性的大门。
-
-
-
目的
-
信任度(trustworthiness)
-
模型当面临给定问题时能否按预期行动的信心
-
-
因果关系(causality)
-
因果关系需要广泛的先验知识来证明观察到的效应是因果的
-
ML模型只发现它从中学习的数据中的相关性,因此可能不足以揭示因果关系
-
验证因果关系推断技术提供的结果,或从可获得的数据中分析可能的因果关系
-
-
可迁移性(transferability)
-
有助于阐明可能影响模型的界限,允许更好地理解和实施
-
仅仅理解模型内部发生的关系有助于用户在另一个问题中再次使用这些知识
-
-
信息量(informativeness)
-
提取有关模型内部关系的更多信息
-
-
信心(confidence)
-
鲁棒性
-
稳定性
-
-
公平性(fairness)
-
对影响结果的关系的清晰可视化,允许对模型进行公平或道德分析
-
突出模型暴露于数据中的偏差
-
-
可访问性(accessibility)
-
允许最终用户更多参与改进和发展某个ML模型的过程
-
减轻非技术或非专家用户在处理最初看起来难以理解的算法时所感受到的负担
-
-
互动性(interactivity)
-
最终用户与与模型的调整和互动能力
-
-
隐私意识(privacy awareness)
-
无法理解模型捕获了什么以及存储在其内部表示中的内容可能会侵犯隐私
-
能够解释训练有素的模型内部关系的能力,未经授权的第三方也可能危及数据来源的部分隐私
-
-
-
实现方式
-
可解释模型(interpretable models)
-
透明模型(transparent models)
-
算法透明度(algorithmic transparency)
-
用户理解模型从输入数据到产生任何给定输出的处理过程的能力
-
算法透明模型的主要约束是,模型必须能够通过数学分析和方法进行全面探索
-
-
可分解性(decomposability)
-
解释模型的每个部分(输入、参数和计算)的能力
-
使算法透明的模型成为可分解模型的额外约束是,模型的每个部分都必须是人类可以理解的,而不需要额外的工具
-
-
可模拟性(simulatability)
-
模型能够被人类模拟或思考,复杂性占据主导地位
-
使可分解的模型具有可模拟性需要模型足够自容,以便人类可以思考和推理其作为一个整体
-
-
-
-
模型可解释性技术(model interpretability techniques)
-
事后可解释性(post-hoc explainability)
-
文本解释(text explanations)
-
通过学习生成文本/符号来解释模型的结果
-
通过模型到符号的语义映射来描绘算法的基本原理
-
-
-
可视化(visualizations)
-
通过可视化模型的行为来实现模型的可解释性
-
许多文献中存在的可视化方法都伴随着降维技术(dimensionality reduction techniques)
-
-
-
局部解释(local explanations)
-
将解决方案空间分割,并为与整个模型相关的较简单的子空间提供解释来处理可解释性
-
可以通过具有区分属性(differentiating property)的技术形成
-
-
-
示例解释(explanations by example)
-
考虑提取与模型生成的结果相关的数据示例,从而更好地理解模型本身
-
主要集中于提取能够把握模型发现的内部关系和相关性的代表性示例
-
-
-
简化解释(explanations by simplification)
-
基于可解释的训练模型重建一个全新的系统的技术,通常试图在降低其复杂性的同时,保持与其前身功能的相似性,并保持类似的性能得分
-
简化的模型通常由于其相对于它所代表的模型的复杂性降低而更容易实施
-
-
-
特征相关性(feature relevance)
-
通过计算模型管理的变量的相关性分数来阐明模型的内部功能,量化了特征对模型输出的影响(敏感性)
-
揭示了模型在产生其输出时对每个变量的重要性
-
-
-
-
-
-
-
透明机器学习模型(第3章)
-
线性/逻辑回归(linear/logistic regression)
-
逻辑回归是用于预测二元(二进制)因变量的分类模型,当因变量是连续的时,线性回归将是其同义词。
-
假设预测因子和预测变量之间存在线性依赖关系
-
满足透明模型(算法透明度、可分解性和可模拟性)的特征
-
也可能需要事后可解释性技术(主要是可视化)
-
用于分析和表示LR的稳健性的不同技术
-
整体模型评估
-
显示了应用模型相对于基准的改进
-
-
单个预测变量的统计测试
-
统计显著性通过计算Wald卡方统计量来显示
-
-
拟合优度统计
-
显示了模型对数据的拟合质量以及这种拟合的重要性,例如Hosmer-Lemeshow(H-L)统计量
-
-
预测概率验证
-
测试模型的输出是否与数据所示相符
-
-
-
担忧
-
对数比值比(优势比,log odds ratios, OR)和奇数比(odd ratios)的使用
-
解释为实质性效应是危险的
-
在不同变量的模型之间比较
-
在不同样本、群体和时间之间比较
-
-
要保持模型的可分解性和可模拟性,必须限制其维数大小
-
-
-
决策树(decision trees)
-
用于支持回归和分类问题的层次结构决策制定工具
-
是可模拟的模型。然而,它们的特性可以使它们成为可分解的或算法透明的
-
可模拟的决策树的维数和特征的数量相对较小,含义也是很容易理解
-
增加维数将模型转变为可分解的模型,因为其维数阻碍了用户对模型的完整评估(模拟)
-
进一步增加其维数并使用复杂的特征关系将使模型变为算法透明的,失去了前面的特征
-
-
-
决策树的许多应用超出了计算和AI(甚至信息技术)的领域,但泛化属性较差
-
树集成(tree ensembles)通过在不同子集的训练数据上学习树来聚合预测
-
失去了每一个透明属性,需要采用事后可解释性技术
-
-
-
K-最近邻(K-Nearest Neighbors)
-
通过投票其K个最近邻的类别来预测测试样本的类别(其中邻域关系是由样本之间的距离度量引起的)
-
在回归问题的背景下使用时,投票被替换为与最近邻相关的目标值的聚合(例如平均值)
-
模型生成的预测依赖于样本之间的距离和相似性的概念
-
这种预测方法类似于基于经验的人类决策制定,它根据过去的类似案例决定结果
-
-
模型透明度类别取决于特征、邻居数量和用于测量数据实例之间相似性的度量函数
-
一个非常大的K值阻碍了人类用户对模型性能的完整模拟
-
使用复杂特征和/或度量函数将阻碍模型的可分解性,限制其可解释性仅为其算法操作的透明度
-
-
-
基于规则的学习(Rule-based learning)
-
生成规则以表征它学习的数据
-
基于模糊规则的系统旨在为更广泛范围的行为设计,允许在不精确领域中定义口头制定的规则
-
提供了更易于理解的模型
-
在某些不确定性的背景中比经典规则系统表现得更好
-
从经典规则转向模糊规则的原因是放宽规则大小的约束,因为可以在减轻可解释性压力的情况下有更大的规则覆盖范围
-
-
经常被用来通过生成规则来解释复杂模型的预测
-
规则生成方法的一个核心问题是规则的覆盖范围(数量)和特异性(长度)
-
模型中的规则数量将明显提高模型的性能,但以牺牲其可解释性为代价
-
规则的特异性也对可解释性不利,因为具有许多前提和/或后果的规则可能变得难以解释
-
-
-
广义可加模型(general additive models)
-
线性模型,其中要预测的变量值由为预测变量定义的一系列未知平滑函数的聚合给出
-
目的是推断平滑函数,其聚合组合近似于预测变量
-
-
结构是容易解释的,因为它允许用户验证每个变量的重要性
-
即如何通过其相应的函数影响预测输出
-
-
可使用可视化方法进一步简化模型的解释
-
模型可以被认为是可模拟的和可分解的模型,但程度大致取决于对基准模型的最终修改
-
例如引入链接函数(link functions)将聚合与预测输出关联
-
例如考虑预测变量之间的交互作用
-
-
使用模型进行研究的主要驱动力是理解建立用来观察的案例之间的潜在关系
-
研究目标不是为了自身的准确性,而是需要理解数据中涉及的变量背后的问题和关系
-
-
-
贝叶斯模型(bayes models)
-
通常采用概率有向非循环图(probabilistic directed acyclic graphical, DAG)模型,其中的链接代表一组变量之间的条件依赖关系
-
清晰地表示了特征和目标之间的关系,这种情况下是通过连接变量之间的联系明确给出的
-
-
可以被视为可模拟的、可分解的和算法透明的
-
在某些情况下(过于复杂或繁琐的变量),模型可能会失去前两个属性
-
-
可被用来解释其他模型,例如平均树集合
-
-
-
机器学习模型的事后可解释性技术(第4章)
-
第一种分类
-
模型无关的事后可解释性技术(Model-agnostic techniques for post-hoc explainability)
-
可以在不考虑模型内部过程和表现形势的情况下,无缝应用于任何ML模型中
-
-
为解释特定ML模型而设计的事后可解释性技术
-
涉及浅层ML模型(shallow ML models)的事后可解释性的文献
-
所有不依赖于神经处理单元层叠结构的ML模型
-
-
为深度学习模型设计的技术
-
神经网络系列及其相关变体
-
-
包含深度神经网络和透明模型的混合方案
-
-
-
模型无关的事后可解释性技术
-
简化解释(包括局部解释)
-
几乎所有基于模型简化的技术都基于规则提取技术(rule extraction techniques)
-
局部无关模型可解释(local interpretable model-agnostic explanations, LIME)技术及其所有变体
-
围绕不透明模型的预测构建局部线性模型以解释它
-
-
G-REX
-
-
学习合取范式(conjunctive normal form, CNF)或析取范式(disjunctive normal form, DNF)中的规则
-
桥接复杂模型和人类可解释模型
-
-
模型提取过程
-
通过透明模型来近似复杂模型
-
-
提炼和分析黑盒模型的方法
-
一种模型提炼和比较方法,用于评价黑盒风险评分模型
-
一个统计测试,用于检查分析数据是否缺少它被训练的关键特征
-
-
-
特征相关性解释技术
-
通过排名或测量被解释的模型预测输出中每个特征的影响、相关性或重要性来描述不透明模型的功能
-
SHAP(SHapley Additive exPlanations)
-
为每个特定预测计算一个加性特征重要性分数,具有一组期望的属性
-
局部准确性local accuracy
-
缺失性missingness
-
一致性consistency
-
-
-
联盟博弈论和局部梯度
-
通过局部梯度测试产生模型输出变化所需的每个特征的变化
-
-
组合特征
-
分析模型中的关系和依赖性
-
-
量化输入影响(Quantitative Input Influence, QII)度量
-
处理输入对系统输出影响程度的量化
-
-
全局敏感性分析(sensitivity analysis, SA)
-
实时图像显著性方法
-
适用于可微分的图像分类器
-
-
自动结构识别方法(automatic structure identification method, ASTRID)
-
检查分类器用于生成预测的属性,找到最大的特征子集,使得使用这个特征子集训练的分类器在准确性上不能与在原始特征集上构建的分类器区分开来
-
-
影响函数
-
将模型的预测回溯到训练数据,仅需要模型的oracle版本,可以访问梯度和Hessian-向量积
-
-
创建反事实示例(counterfactual examples)
-
-
视觉解释技术
-
几乎所有的可视化方法都与特征相关性技术一起工作
-
通过可视化特征相关性的输出来简化模型的解释
-
其他方面的可视化技术(例如,其结构、操作等)与要解释的特定模型紧密相关
-
-
构建在全局敏感性分析之上的可视化技术
-
三种新的敏感性分析(SA)方法
-
基于数据的SA
-
蒙特卡洛(Monte-Carlo)SA
-
基于聚类(cluster-based)的SA)
-
一种新的输入重要性度量方法(平均绝对偏差average absolute deviation)
-
-
个体条件期望(individual conditional expectation, ICE)图
-
-
-
浅层ML模型的事后可解释性
-
树集合(tree ensembles)/随机森林(random forests)
-
结合了不同的树来获得聚合的预测/回归
-
提高单个决策树泛化能力的高效手段
-
单个决策树通常容易过拟合
-
-
-
简化树集合
-
从集合模型标记的数据(理想情况下,遵循真实数据分布)中的一组随机样本中,训练一个单一的、不那么复杂的模型
-
简化的树集合学习器(simplified tree ensemble learner, STEL)
-
使用两个模型(简单和复杂)的方法
-
前者负责解释
-
期望最大化(Expectation-Maximization)
-
-
后者负责预测
-
Kullback-Leibler散度
-
-
-
-
特征相关性技术
-
在随机森林的外包样本中随机置换某个变量,测量
-
平均减少准确性(mean decrease accuracy, MDA)
-
平均增加误差(mean increase error, MIE)
-
-
-
将一个示例从一类转换为另一类的推荐
-
试图以更描述性的方式解决变量重要性
-
-
-
多分类器系统(multiple classifier systems)
-
带有辅助特征的堆叠(stacking with auxiliary features, SWAF)方法
-
通过利用和集成堆叠集合的解释来改善它们的泛化,依赖于
-
复合学习器的输出
-
该输出的来源
-
其在整个集成中的共识
-
-
-
DeepSHAP
-
多个分类器的解释图组合
-
传统和梯度提升集合
-
-
支持向量机(support vector machines)
-
构建了一个或一组在高维或无限维空间中的超平面
-
通过具有最大距离(所谓的功能边距functional margin)到最近的任何类别的训练数据点的超平面实现了良好的分离
-
这些超平面可用于分类、回归或其他任务,如异常值检测(outlier detection)
-
边距越大,分类器的泛化误差越低
-
-
简化解释
-
从训练模型的支持向量中提取规则的技术
-
修改后的顺序覆盖算法(modified sequential covering algorithm)
-
折中规则提取(eclectic rule extraction)
-
模糊(fuzzy)规则
-
-
在支持向量之外添加SVM的超平面以创建规则
-
依赖于从支持向量和超平面的交集中创建超矩形
-
-
将实际训练数据作为构建规则的组件
-
聚类方法(clustering method)
-
为每个类别的原型向量进行分组,通过将它们与支持向量结合起来,在输入空间中定义椭圆和超矩形
-
-
超矩形规则提取(hyper-rectangle rule extraction)
-
基于支持向量聚类(support vector clustering, SVC)的算法
-
为每个类别找到原型向量,然后在周围定义小超矩形
-
-
多约束优化(multi-constrained optimization)
-
创建一组不重叠的规则。每条规则传达一个非空超立方体,与超平面共享一条边
-
-
多核(multi-kernel)SVM的一个组成部分
-
用于基因表达数据(gene expression data)的规则提取
-
特征选择
-
预测建模
-
规则提取
-
-
-
-
增长SVC(growing SVC)
-
以线性规则定义提取的原型中的Voronoi部分空间
-
-
-
可视化解释
-
从核矩阵中提取信息内容
-
研究集中在支持向量回归(support vector regression)模型上
-
可视化哪些输入变量实际上与相关的输出数据相关
-
-
将SVM的输出与热图(heatmaps)结合起来
-
根据训练有素的线性SVM的权重给原子着色
-
-
边距的重要性
-
解释神经影像中的多变量模式
-
-
-
贝叶斯系统
-
SVM被解释为具有高斯过程先验(priors)的推断问题的最大后验概率(maximum a posteriori, MAP)解
-
使调整超参数变得可理解,并允许预测类别概率而不是SVM的经典二元分类
-
-
不定核SVM的几何解释
-
最小化了欧几里得(pseudo-Euclidean)空间中凸包之间的距离
-
-
-
-
-
深度学习的可解释性
-
事后局部解释和特征相关性技术越来越成为解释DNNs的最采用的方法
-
多层神经网络(多层感知器)
-
模型简化技术
-
DeepRED算法
-
过添加更多的决策树和规则,扩展了多层神经网络的分解方法到神经元级别
-
-
可解释的模仿学习(interpretable mimic learning)
-
通过梯度提升树提取可解释模型
-
-
层次化(hierarchical)的特征空间划分(partitioning)
-
迭代拒绝不太可能的类别标签,直到关联性被预测
-
-
从模型集合中提取知识到单个模型
-
-
特征相关性方法
-
将网络分类决策分解为其输入元素贡献
-
将每个神经元视为一个可以分解、展开、然后聚合并通过网络反向传播这些分解的对象,从而实现深度泰勒分解(deep Taylor decomposition)
-
-
DeepLIFT
-
将神经元的激活与参考激活进行比较,并根据差异分配分数,进而计算多层神经网络中重要性分数
-
-
两个公理
-
敏感性(sensitivity)
-
实现不变性(implementation invariance)
-
-
PatternNet和PatternAttribution
-
-
-
卷积神经网络
-
CNNs构成了所有基本计算机视觉任务的最先进的模型
-
从图像分类(image classification)和目标检测(object detection)到实例分割(instance segmentation)
-
-
这些模型被构建为一系列卷积层(convolutional layers)和池化层(pooling layers),以自动学习越来越高层次的特征。在序列的末端,一个或多个全连接层(connected layers)被用来将输出特征映射到分数。
-
当输入图像通过CNN进行前馈(feed-forward)时,每一层都会输出一些具有强激活和弱激活的特征图
-
-
第一类解释性工作
-
通过将输出映射回输入空间来理解决策过程,看看哪些输入部分对输出有决定性影响
-
Deconvnet
-
当用选定层的特征图进行喂养时,重建最大激活。这些重建可以给出关于产生这种效果的图像部分的想法
-
可视化
-
遮挡敏感性方法生成显著性图
-
通过网络迭代转发相同的图像,每次遮挡一个不同的区域
-
-
-
-
CNN架构修改、简化、可视化
-
在CNN的最后一个卷积层和预测对象类别的全连接层之间包括了一个全局平均池化层(global average pooling layer)
-
类激活图
-
将输出层的权重投影回卷积特征图,帮助识别对特定对象类别特别重要的图像区域
-
-
-
用最大池化层(max-pooling layers)替换具有大步幅(large stride)的卷积层
-
不会在几个图像识别基准测试中损失准确性
-
引导反向传播(guided backpropagation)方法
-
获得了比Deconvnet更清晰的可视化
-
-
-
在高层卷积层的每个滤波器中使用了一个损失
-
强制每个滤波器学习非常特定的对象组件
-
解释预测的不同标签的独占性(exclusiveness)
-
-
-
热图
-
可视化输入图像中每个像素(pixel)对预测的贡献
-
逐层相关性传播(layer-wise relevance propagation, LRP)技术
-
依赖于在预测点附近的泰勒级数(Taylor series),而不是在预测点处的偏导数(partial derivatives)本身
-
-
-
归因方法
-
热图、显著性图
-
类激活方法
-
梯度加权类激活映射(gradient-weighted class activation mapping, Grad-CAM)
-
使用任何目标概念的梯度,流入最终的卷积层,以产生粗略的位置图,突出显示图像中对预测概念重要的区域
-
-
-
-
-
生成图像视觉内容的文本解释
-
结合CNN特征提取器(CNN feature extractor)和RNN注意力模型(RNN attention model)
-
三级注意力模型
-
执行细粒度(fine-grained)分类任务
-
总体模型是一个管道,集成了三种类型的注意力
-
对象级(object-level)注意力模型
-
从输入图像中提出候选图像区域或补丁(patches)
-
-
部分级(part-level)注意力模型
-
过滤掉与某个对象无关的补丁
-
-
最后的注意力模型
-
定位有识别能力的补丁
-
-
-
-
-
双向(bi-directional)LSTM模型作为编码器
-
-
-
第二类解释性工作
-
试图深入网络内部,解释中间层如何看待外部世界,不一定与任何特定输入有关,而是一般性的
-
通用框架
-
从CNN的内部表示重构图像
-
可视化CNN捕获的类别概念
-
基于计算类别分数相对于输入图像的梯度的图像
-
-
-
深度生成网络(deep generator network, DGN)
-
为CNN中给定的输出神经元生成最具代表性的图像
-
-
网络解剖(network dissection)
-
将大量图像通过CNN运行,然后分析顶部激活的图像
-
考虑每个单元作为概念检测器,以进一步评估每个单元对语义分割的影响
-
-
多种方法结合
-
特征可视化(feature visualization)
-
神经元在寻找什么?
-
-
归因(attribution)
-
它如何影响输出?
-
-
-
LIME框架
-
通过扰动输入并观察预测如何变化
-
在图像分类中
-
通过将输入图像划分为可解释的组件(连续的超像素),并通过模型运行每个扰动实例以获得概率
-
个简单的线性模型在这些数据集上学习,这些数据集是局部加权的
-
-
-
对抗性检测(adversarial detection)
-
理解在检测对抗性示例中的模型失败
-
在CNN的每层学习的数据表示上应用k-最近邻算法
-
如果测试输入图像的表示与训练图像的表示相距甚远,则被认为是对抗性的
-
-
-
-
-
循环神经网络
-
被广泛用于定义在固有序列数据上的预测问题
-
特别是在自然语言处理(natural language processing)和时间序列分析(time series analysis)中
-
-
将从数据中学习的知识保留在神经元中作为另一个参数特征来检索时间依赖关系
-
第一类解释方法
-
通过理解RNN模型学到了什么(主要通过特征相关性方法)来解释
-
LRP
-
特定的传播规则
-
长短期记忆(long short term memory, LSTMs)单元和门控循环单元(gated recurrent units, GRUs)中的乘法连接
-
基于有限范围n-gram的可视化技术
-
区分LSTM和GRU网络中的可解释单元
-
-
可解释模仿学习提炼(interpretable mimic learning distillation)方法
-
通过将梯度增强树(gradient boosting trees)拟合到所关注的训练有素的LSTM网络来学习可解释的特征
-
-
-
-
第二类解释方法
-
通过修改RNN架构以提供对其决策的洞察(局部解释)来解释
-
RETAIN(REverse Time ATTention)模型
-
通过两级神经注意力模型(two-level neural attention model)检测有影响的过去模式
-
-
基于顺序迭代软阈值算法(sequential iterative soft-thresholding algorithm, SISTA)的RNN
-
使用一系列稀疏潜在向量对一系列相关观察进行建模,使其权重可解释为一个原则性统计模型(principled statistical model)的参数
-
-
隐马尔可夫模型(hidden markov model, HMM)和RNN的组合
-
整体模型方法利用HMM的可解释性和RNN模型的准确性
-
-
-
-
-
混合透明和黑盒方法
-
优点
-
以逻辑陈述或知识库(knowledge bases, KBs)中的约束形式使用背景知识
-
提高可解释性
-
提高与纯数据驱动方法相比的性能
-
-
在训练数据标签存在错误时为学习系统提供了鲁棒性
-
能够同时学习和推理符号和次符号表示和推理
-
允许以端到端(end-to-end)的方式进行表达性的概率逻辑推理(probabilistic-logical reasoning)
-
-
通过外部化其他领域的信息源来赋予DL模型可解释性
-
经典ML模型的深度公式化
-
深度卡尔曼滤波器(deep formulation filters, DKFs)
-
深度变分贝叶斯滤波器(deep variational bayes filters, DVBFs)
-
结构变分自编码器(structural variational autoencoders, SVAE)
-
作为RNNs的条件随机场
-
-
经典ML模型与DL对应物增强
-
深度最近邻(deep nearest neighbors, DkNN)
-
-
-
用透明的箱子来丰富黑箱的知识模型
-
通过语义KB和容易出现偏差的概念限制神经网络
-
通过堆叠同时包含白盒和黑盒模型的集成
-
-
混合符号和次符号方法
-
知识库工具或图视角增强了神经(例如,语言)模型
-
强化学习
-
推荐系统
-
可解释的自编码器
-
-
变换器架构符号可视化方法(transformer architecture symbolic visualization method)
-
以图形方式展示了soft-max函数注意力的工作
-
通过可视化自引用(self-reference),即注意力权重的最后一层,弧线展示了过去哪些音符为未来提供了信息以及注意力是如何跳过不太相关的部分的
-
变换器还可以帮助视觉化图像字幕
-
-
-
将不可解释的黑盒系统映射到更可解释的白盒双胞胎
-
不透明的神经网络可以与透明的基于案例的推理(case based reasoning, CBR,例如KNN)系统结合
-
在保持相同准确性的同时提高可解释性
-
通过示例的解释包括分析DNN的特征权重,然后在CBR中使用,以检索最近邻案例来解释DNN的预测
-
-
-
-
替代分类
-
解释网络处理数据的方法
-
为什么这个特定的输入导致这个特定的输出?
-
-
解释网络内部数据表示的方法
-
网络包含什么信息?
-
-
专门设计模型以简化其自身行为解释
-
-
-
XAI:机遇、挑战和未来研究需求(第5章)
-
关于可解释性和性能之间的权衡
-
更复杂的可解释性方法的出现
-
为ML模型所做的解释必须足够激进和近似
-
以符合寻求解释的受众的要求,确保解释代表所研究的模型,并且不会过度简化其基本特征
-
-
-
关于概念和指标
-
共同概念
-
指标体系
-
比较模型在可解释性定义方面的表现
-
测量技术
-
更可量化的通用XAI指标
-
-
-
实现可解释深度学习的挑战
-
标准化的术语
-
建立客观指标
-
约束性的解释
-
将概率结果转化为包含因果关系的定性概念
-
选择性的解释
-
使用反事实解释
-
结合连接主义和符号范式
-
连接主义方法更精确但不透明
-
符号方法通常被认为效率较低,但它们提供了更大的可解释性
-
-
拥有知识的语义表示可以帮助模型具有产生解释的能力
-
严格规范评估方法
-
为社会、政策制定者和法律提供可访问的解释
-
-
AI安全性解释:XAI和对抗性机器学习
-
Cleverhans
-
检测对抗性漏洞,并提供不同的方法来增强模型以抵御它们
-
-
SVM模型的AlfaSVMLib
-
用于逃避攻击的AdversarialLib
-
针对无监督ML的可用解决方案,如聚类算法
-
生成对抗网络(generative adversarial networks, GANs)
-
变分自编码器(variational autoencoders)
-
生成模型(generative models)
-
可以根据噪声输入向量(noise input vector)生成它们所学到的实例
-
创建反事实
-
对输入数据的修改,最终可能改变模型的原始预测
-
-
-
-
XAI和输出信心
-
研究围绕最小化由ML模型输出做出的决策所衍生的伤害风险和不确定性已经开展
-
评估模型输出信心
-
检查输入数据的认识不确定性(即,由于缺乏知识而产生的不确定性)及其与模型输出信心的对应关系
-
-
通过XAI技术解释模型在产生给定输出时关注输入数据的哪个区域,可以区分输入域中可能的认识不确定性来源
-
-
XAI、理由解释和关键数据研究
-
数据如何被处理、清理、建模和分析
-
理由解释(rationale explanation)
-
XAI可以有效地简化向非专家用户解释模型做出决策的原因的过程
-
-
关键数据研究(critical data studies)
-
这种跨学科团队在与数据科学相关的项目中的融合,以及寻找能够评估其基于数据的选择的伦理影响的方法
-
-
-
XAI和理论指导的数据科学
-
科学范式
-
结合了数据科学和数据产生的应用/背景中的经典理论原则
-
模型类型、结构和训练方法的选择
-
正则化项(regularization terms)
-
代表该领域的先验前提,避免消除较差表现的真正关系以换取虚假和欺骗性的关系
-
-
模型的输出
-
告知模型所学到的一切,允许推理和合并新知识与该领域已知的内容
-
-
-
知识从一开始(knowledge from the beginning)的概念
-
理论指导的数据科学的核心
-
如何解释模型所捕获的知识,以评估其与先前已知的理论原则的一致性
-
-
-
确保可解释AI模型的指南
-
step1:在设计可解释性方法时,必须考虑背景因素(contextual factors)、潜在影响(potential impacts)和领域特定需求(domain-specific needs)
-
包括对AI模型构建目的的全面理解,受众所需理解的复杂性,以及现有技术、模型和方法的性能和可解释性水平
-
-
step2:应优先考虑可解释技术
-
选择哪种XAI方法应衡量领域特定风险和需求、可用的数据资源和现有领域知识,以及ML模型满足所要解决的计算任务要求的适用性
-
建议首先考虑标准的可解释模型,而不是复杂但不透明的建模方法
-
-
step3:如果选择了黑盒模型
-
应权衡与伦理、公平性和安全性相关的影响
-
应确保AI系统设计和实施中的责任,检查是否可以通过补充系统的XAI工具以提供领域所需的可解释性水平来减轻和抵消这些已识别的影响
-
-
详细阐述、检查和评估适用的解释策略
-
分析可用的解释方法的覆盖范围是否符合模型部署领域和应用背景的要求
-
制定可解释性行动计划
-
该计划概述了解释交付策略,包括行动计划执行的详细时间框架,以及参与工作流程的团队的角色和责任的明确划分
-
-
-
step4:鼓励从个体人类的认知技能、能力和局限性的角度重新思考可解释性
-
人类心理模型(human mental models)
-
受众对解释结果词汇的可访问性
-
让受众的专业知识参与到应该提供什么解释的决定中
-
-
-
-
朝着负责任的AI迈进:人工智能原则、公平性、隐私和数据融合(第6章)
-
人工智能原则
-
性质
-
可以是私营部门、政府、政府间组织、民间社会或多利益相关者
-
-
原则内容
-
八个可能的原则,如隐私、可解释性或公平性,以及文件对每个原则的覆盖范围
-
-
目标受众
-
通常是为制定它们的组织,但也可以针对其他受众
-
-
是否基于国际人权,以及是否明确谈论它们
-
五个主要原则
-
公平AI原则
-
使用AI系统后的输出不应导致对个人或集体的任何形式的歧视
-
-
透明和可解释的AI原则
-
人们应该始终知道他们是在与人交流,还是在与AI系统交流
-
人们还应该知道他们的个人信息是否被AI系统使用以及用于什么目的
-
-
以人为本的AI原则
-
AI产品和服务应始终与联合国的可持续发展目标保持一致,并以积极和切实的方式为它们做出贡献
-
-
隐私和安全设计原则
-
AI系统,特别是当它们由数据提供时,应始终在其整个生命周期中考虑隐私和安全标准
-
负责任研究和创新(RRI)
-
一套方法论指南和建议,旨在从实验室到全球社会挑战(如可持续性、公众参与、伦理、科学教育、性别平等、开放获取和治理)的更广泛背景中考虑科学研究
-
-
-
所有这些原则应始终扩展到任何第三方(供应商、顾问、合作伙伴等)
-
-
欧洲委员会(EC)可信AI的伦理指南
-
评估清单
-
人类代理和监督
-
技术鲁棒性和安全性
-
隐私和数据治理
-
透明度、多样性、非歧视和公平性
-
社会和环境福祉
-
可问责性
-
-
可问责性
-
-
-
-
公平性和可问责性
-
公平性和歧视
-
个体公平性
-
通过模拟每个个体与整个人群之间的差异来分析
-
-
群体公平性
-
从所有个体的角度处理公平性
-
-
反事实公平性
-
试图使用因果图等来解释偏差的原因
-
-
偏差来源
-
数据偏差
-
数据获取过程中的偏差
-
-
数据污染
-
数据建模定义中的错误、错误的特征标记和其他可能的原因
-
-
特征限制
-
使用太少的特征可能导致推断出虚假的特征关系
-
-
样本大小差异
-
在使用敏感特征时,不同子群体之间的差异可能会导致偏差
-
-
代理特征
-
可能存在与敏感特征相关的特征,即使数据集中没有敏感特征,也可能导致偏差
-
-
-
评估标准
-
独立性
-
模型预测与敏感特征独立
-
模型给出的正样本(即属于感兴趣类别的样本)的比例对敏感特征内的所有子群体都是相同的
-
-
-
分离性(等化机会)
-
模型预测在给定目标变量的情况下与敏感特征独立
-
在分类模型中,真正例(TP)率和假正例(FP)率在敏感特征内的所有子群体中都是相同
-
-
-
充分性(预测率平价)
-
目标变量在给定模型输出的情况下与敏感特征独立
-
正预测值对敏感特征内的所有子群体都是相同的
-
-
-
-
实现方式
-
评估测量模型中存在的偏差量
-
独立性标准
-
奇偶校验差异或差异影响
-
-
分离性标准
-
等机会差异和平均奇偶校验差异
-
-
Theil指数
-
在个体和群体公平性方面衡量不平等
-
-
-
修复模型的某些方面以消除偏差对一个或多个敏感特征的影响的过程(缓解)
-
预处理
-
重加权
-
通过修改特征的权重来消除敏感属性中的歧视
-
-
转换输入数据以找到一个良好的表示,该表示混淆了敏感特征的成员信息
-
-
处理中
-
与ML模型的成本函数一起的公平性优化约束
-
对抗性去偏差
-
生成对抗网络(GAN)
-
具有同时优化预测目标变量的能力和最小化预测敏感特征的能力
-
-
-
-
-
后处理
-
不修改输入数据或ML模型(较少的侵入性)
-
等化机会
-
调整分类模型中的阈值,以减少每个敏感子群体的TP率和FP率之间的差异
-
-
-
-
-
-
可问责性
-
可审计性
-
包括对算法、数据和设计过程的评估,同时保留与AI系统相关的知识产权
-
-
负面影响的最小化和报告
-
包括报告系统产生的行动或决策导致的某些结果
-
还包括对这些结果的评估以及如何应对它们
-
-
权衡
-
补救
-
-
隐私和数据融合
-
数据融合的基本层次
-
第一种分类
-
数据层次
-
从不同的信息源接收原始数据,并将它们组合以创建更连贯、合规、健壮或简单代表性的数据流
-
-
模型层次
-
每个模型都是从要融合的数据集的子集中进行学习
-
-
知识层次
-
处理以规则、本体或其他知识表示技术形式的知识,意图将它们合并以创建比最初提供的更新、更好或更完整的知识
-
-
-
第二种分类
-
根据数据处理和融合的位置
-
集中式数据融合方法
-
节点将其本地捕获的数据传递给集中式处理系统以合并它们
-
-
分布式数据融合方法
-
每个节点合并其本地捕获的信息,最终与对应节点共享本地融合的结果
-
-
-
-
-
新兴数据融合方法
-
大数据融合
-
Reduce节点
-
Map任务
-
-
联合学习
-
远程客户端
-
中央服务器
-
-
多视图学习
-
多个信息源
-
不同的特征子集
-
-
-
在负责任AI范式下的机会和挑战
-
-
在组织中实施负责任AI原则
-
特定于AI的原则
-
端到端原则
-
-
-
-