首页 > 其他分享 >【机器学习】李宏毅——Explainable ML(可解释性的机器学习)

【机器学习】李宏毅——Explainable ML(可解释性的机器学习)

时间:2022-12-22 19:22:05浏览次数:50  
标签:输出 机器 李宏毅 模型 解释性 学习 我们

在前面的学习之中,我们已经学习了很多的模型,它能够针对特定的任务,接受我们的输入并产生目标的输出。但我们并不满足于此,我们甚至希望机器告诉我们,它是如何得到这个答案的,而这就是可解释的机器学习。

Why we need Explainable ML

首先我们要明确,即使我们训练出来的模型能够得到一个正确的输出,但是这并不代表它真正学习到了内核的规律所在,因此我们总是希望能够知道为什么机器给出这个答案,在一些特定的场景也是如此:

  • 例如将机器学习用于医疗诊断,那我们希望机器做出来的决策是有根据的
  • 将机器学习用于法律,那我们也希望看到机器学习做出判定背后的原因,是否存在歧视问题等

而且如果我们能够拥有可解释性的机器学习,那么在模型的效果不好的时候,我们便能够知道是哪部分出现了问题,可直接调整解决。

而对于可解释性的机器学习,它的评价标准来说一直很难定夺,因为一个理由的可解释是因人而异的

可解释性VSPowerful

对比一下线性模型、深度学习网络、决策树这三个模型的特点:

  • 线性模型的可解释性比较强,我们能够通过各个权重和偏置来简单地理解线性模型之间各个变量的关系;但是线性模型其拟合未知函数的能力较弱
  • 深度学习网络的能力很强大,能够完成非常多复杂的任务,但是它的可解释性比较差, 我们很难理解其内部的含义
  • 单颗决策树的可解释性很强,并且决策森林的拟合能力也是很好的。但是如果决策森林中决策树的数目很多的话,其可解释性也一样会变差

因此并没有模型能够简单地完美解决拟合能力和可解释性的问题

Explainable ML

假设模型是根据一张图片做出其所属的分类,那么可解释性的机器学习大致可以分为两大类:

  • Local Explanation:它要回答的问题是机器为什么会觉得这张图片是属于这一类
  • Global Explanation:它要回答的问题是你觉得这一类的图片应该长什么样子,这个类别的模型比较特殊,没有针对某张图片而是针对整个类。

Local Explanation:Explain the Decision

这个类别的模型,我们可以把问题转换成更具体一点:是输入中的哪一个部分让机器觉得它属于这个类别呢?例如对于输入x来说可以写成多个组成部分\(\{x_1,...,x_n,...,x_N\}\),例如在图片中每一个就代表一个像素,在句子中每一个就代表一个词汇等等。那么如果我们希望找到哪个对结果影响最大的组成部分,可行的办法是逐个改变或删除组成部分,看看在改变哪一个的时候机器的输出会发生变化,例如下图的例子:

在这里插入图片描述

上面代表在每一张图片中使用一个灰色方块去不断遮挡某一部分,当遮挡到蓝色部分的时候就会发现机器无法做出正确预测

那么还有一个更进阶的想法叫做Saliency Map,即将输入表示成一个向量\(\{x_1,...,x_n,...,x_N\}\),那么该输入对应的输出与真正的输出之间就可以计算损失Loss。那么具体的想法就是不断尝试改变每一个分量的值为\(x_n=x_n+\Delta x\),那么相应的Loss也变化,因此我们可以从Loss变换的程度来看这个变量对于结果的影响性有多大,即:

\[\vert \frac{\Delta L}{\Delta x_n} \vert=\vert \frac{\partial L}{\partial x_n}\vert \]

相当于梯度的值越大,该值对于结果的影响力就越大,该变量就越重要,如下图:

在这里插入图片描述

但这个方法也存在一定的局限性, 或者说在某些场景中表现也不是很好,例如下图的中间图片,虽然它将羚羊的大致轮廓表达了出来,但是另外区域的杂讯还是特别的多;因此我们可以用SmoothGrad来尝试解决,得到右边的图,可以看到效果更好:

在这里插入图片描述

那么SmoothGrad的做法是为原始的图片重复多次,每次加入随机产生的杂讯来影响每一个像素点,然后对于每一次得到的图像都画Saliency Map,最后再将其平均起来即可

而上述的通过梯度计算然后画出对应Saliency Map的方法也存在一定的局限性,就是在梯度上产生了问题,例如下面的例子为某种生物鼻子的长度的变化所引起该生物是否是大象的概率的变化:
在这里插入图片描述

可以看到在鼻子长度较大的点处,此处因为是大象的概率已经很高了,因此其梯度很小,那我们如果直接计算其梯度的话就会得到结果说鼻子的长度对是否是大象的概率没有影响,这显然是不符合逻辑的!

那么还有另外一个能够认识到模型各个模块相关功能的办法,具体可以用一个语音辨认的例子来解释:假设我们当前的语音辨识模型有很多层,那我们训练一个模型将向量转换为语音的输出,那么就可以对每一层输出的Embedding都放入这个转换为语音的模型中得到输出,我们再听每一层对应的语音输出,就可以明确每一层对声音的处理起到了什么作用

Global Explaination:Explain the Whole Model

对于这个类别的可解释性模型来说,它并不是告诉我们一个特定的样本长什么样子、属于什么分类,而是根据模型内的参数来理解说为什么某一个类的样本会长这个样子,可以简单理解为我们要机器告诉我们它心理想象的猫长什么样子

下面通过一个图像检测的例子来说明我们对于这种问题的解决思路。

在这里插入图片描述

对于图中的每一个filter,可以看成它是对上一层所输出的图像的某一块区域的监测,如果监测到它希望得到的信息,那么它的值就会比较大。但是现在Global Explaination的任务不是针对特定样本而言,也就是说我们没有样本来生成各层的图像。而为了知道每一层的每一个filter它想要监测什么内容,我们可以来创造图像,即如上图所示,我们创造一个图片对应的向量,使得它输出进入能够使得我们当前观察的这个filter最大,即

\[X^*=argmax_X \sum_i\sum_j a_{ij} \]

那么我们再来观测\(X^*\)对应的图像,我们就可以知道这个filter它想检测什么样的类型了,如下图:

在这里插入图片描述

例如上图就有的filter检测横条纹、竖条纹等等等等。

那么上述的思路,我们能否将其直接用于输出层呢?例如我们直接让:

\[X^*=argmax_X~y_i \]

也就是说我们找一张图片,让这个图片通过机器后输出某一个类别的概率最大,那么有可能实现吗?实际上效果很差!例如在手写数字的识别例子中:

在这里插入图片描述

为什么会这样呢?这其中的解释大概可以说成:因为机器它不一定是看到某个数字的样子才会输出对应的类别,它可能真的没有学习到这个规律,只是学习到从一堆杂讯中寻找到它认为是某个类别的信息。那么如果真的要用这个方法,需要根据我们对于图像的深层次理解加上一大堆的假设,并且好好调整参数才可能得到,如下图:

在这里插入图片描述

那么为了避开上述这么多的约束呢,我们还有一个办法就是引入生成器来帮助。即我们假设已经通过很多的图片训练完成了一个生成器(用GAN、VAE等),然后我们将生成器接到原分类模型之前,即:

在这里插入图片描述

那现在我们的目标就转换成:

\[z^*=argmax_z ~y_i \]

即找到一个z的向量,生成图片之后能够使得y对该图片的分类的信心分数最大。那么我们要得到可解释性的东西,就再将向量\(z^*\)转换成图片即可,即:

\[X^*=G(z^*) \]

这样得到的效果可能是很好的。

标签:输出,机器,李宏毅,模型,解释性,学习,我们
From: https://www.cnblogs.com/FavoriteStar/p/16999443.html

相关文章

  • 【机器学习】李宏毅——Flow-based Generative Models
    前文我介绍了部分关于生成学习的内容,可以参考我这篇博文点此前面介绍的各个生成模型,都存在一定的问题:对于PixelRNN这类模型来说,就是从左上角的像素开始一个个地进行生成......
  • 机器学习模型-BUPA liver disorders-探索饮酒与肝炎关系(论文,科研,医疗信息化诊断系
    作者Toby,来自​​机器学习模型-BUPAliverdisorders-探索饮酒与肝炎关系​​肝炎是由细菌、virus、寄生虫、酒精、药物、化学物质、自身免疫等多种致病因素引起的肝脏炎症......
  • 机器阅读理解算法集锦
    机器阅读理解算法集锦  机器阅读理解(MachineReadingComprehension,MRC)是一项基于文本的问答任务(Text-QA),也是非常重要和经典的自然语言处理任务之一。机器阅读理解旨在......
  • 机器学习——信用分数分类
    一、选题的背景假设一家金融公司需要对用户的信用进行快速的评分,并对其信用等级进行分类,如果使用人工进行分类无疑是需要耗费大量的人力和时间。该公司收集了用户的银行详......
  • [机器学习] t-SNE聚类算法实践指南
    ​ 转载于比PCA降维更高级——(R/Python)t-SNE聚类算法实践指南-阿里云开发者社区作者介绍:Saurabh.jaju2  Saurabh是一名数据科学家和软件工程师,熟练分析各种数据集和......
  • 机器学习--是否佩戴口罩图片识别
    (一)选题背景:秋冬季本就是流感的高发期,叠加近年来势汹汹的肺炎病毒疫情。个人防护工作显得更加重要。流感多数以人体唾沫传播。此时口罩就起到了非常重要的作用,可以在源头进......
  • 机器学习-哺乳动物识别
    机器学习——哺乳动物识别(一)选题背景:哺乳动物是动物世界中形态结构最高等、生理机能最完善的动物。与其他动物相比,哺乳动物最突出的特征在于胎生以及其幼崽由母体分泌的......
  • H5 雪碧图 移动的机器猫
    精灵图(英语:Sprite),又被称为雪碧图或拼合图。在计算机图形学中,当一张二维图像集成进场景中,成为整个显示图像的一部分时,这张图就称为精灵图。本文中用的就是这张,来自爱给......
  • 机器学习——植物叶片病害识别
    机器学习——植物叶片病害识别一、选题背景随着现代科技的发展,人们对于人工智能领域的研究越发的深入。机器学习作为人工智能和识别领域研究的重要课题非常值得我们......
  • 机器学习——人脸性别识别
    一、选题背景    人脸识别技术是模式识别和计算机视觉领域最富挑战性的研究课题之一,也是近年来的研究热点,人脸性别识别作为人脸识别技术的重要组成部分也受到了广......