首页 > 其他分享 >Amazon 如何让机器学习变得值得信赖

Amazon 如何让机器学习变得值得信赖

时间:2024-06-04 14:58:22浏览次数:14  
标签:机器 模型 偏见 亚马逊 学习 Amazon 隐私 信赖 数据

文章目录

一、说明

机器 学习最近风靡全球。由于所有惊人的结果,公司一直在争先恐后地将数据驱动的决策纳入其流程。鉴于 DALLE、StableDiffusion 和现在的 ChatGPT 的所有精彩演示,越来越多的人开始意识到 AI 的潜力。然而,有些人一直担心这些模型可能造成的伤害。最近,ChatGPT引起了一些关注,因为用户发现它可以产生一些辛辣的输出。看看 ChatGPT 如何根据他们的种族和性别来识别优秀的科学家。
在这里插入图片描述

有关此输出的非点击诱饵、非炎症性分析以及为什么这很重要,请查看这篇文章。太多的评论员一直关注错误的事情。
数据科学和深度学习中的偏见并不是什么新鲜事。大型模型对数据集中的偏差和复制偏差编码的敏感性也不高。我已经谈论了 2 年了。但是,了解如何处理这个问题现在比以往任何时候都更加重要。幸运的是,科技巨头亚马逊在这一领域取得了长足的进步。在本文中,我将分解他们的出版物——Alexa AI 可信机器学习的进展——他们在其中分享了他们用来创建更安全、更公平的 AI 的一些技术。
在这里插入图片描述

试图消除数据集中偏差的一个例子。亚马逊的模型忽略了提示中的性别语言。摘自“通过反事实角色逆转减轻精炼语言模型中的性别偏见”
如果您有兴趣创建更好的 ML 管道,那么这不是您想错过的主题。让我们开始吧。

二、技术 1:隐私保护 ML

为了理解这一点以及为什么这很重要,让我们首先了解一个关于机器学习的基本事实。ML 模型接受一些输入并生成一些输出。生成的输出取决于模型在训练阶段发现的规则。这是不言而喻的,但规则取决于我们提供给模型的输入。对大多数人来说很明显。那我为什么要谈论它呢?

事实证明,这会带来一些隐私风险。输出有可能用于推断有关输入的详细信息。您的数据最终可能会落入您从未同意的人手中。这就是差分隐私理念的用武之地。引用该出版物的话,“差分隐私(DP)背后的直觉 是,对模型输出的访问不应提供任何关于用于训练模型的输入的提示。

这是如何计算的?“DP 将这种直觉量化为在给定数据集上训练的模型的输出与删除单个输入后在同一数据集上训练的同一模型的输出之间的差异(概率)。以这种方式,它让我想起了基于排列的特征的重要性,但我们不是在特征中洗牌,而是在删除值。这是一种有趣的方法,可以量化单个样本对训练过程的影响。

亚马逊实现这一目标的主要方法之一是使用输入噪声。我已经广泛介绍了在深度学习管道中添加随机性的好处。然而,根据他们的写作,亚马逊似乎尝试了一个稍微不同的方向。他们没有使用噪声作为增加混乱的手段,而是使用噪声来隐藏参数与训练数据的关系。下图给出了一个示例。
在这里插入图片描述

摘自他们的出版物《提高隐私保护神经网络的准确性》
我通常推荐的方式是为了提高管道的泛化性和鲁棒性。显然,添加完全随机的噪音将有助于保护隐私。但是,它可能会导致性能下降。亚马逊的方法更适合保持更高的性能。但是,请记住,要充分利用亚马逊的方法,您需要进行明智的替换。你不能用香肠代替波士顿。找到合适的替代品可能会增加您的计算成本。作者承认这一点——

三、添加 DP 机制的另一个副作用是增加训练时间。

亚马逊还对人们如何使用各种技术重建训练样本进行了一些非常有趣的研究。要了解有关它及其防御对策的更多信息,请查看他们的出版物 Canary extraction in natural language understanding models

在这里插入图片描述

AlphaSignal 是每周免费的机器学习主要发展摘要。他们使用 AI 对该领域的顶级发展进行排名并向您发送。如果你正在寻找一些东西来帮助你跟上机器学习的步伐,请查看它们。阅读它们是与该领域保持联系并免费支持我的写作的好方法。

阿尔法信号 |最好的机器学习。由人工智能总结。
随时了解情况,无需花费无数时间浏览下一个突破;我们的算法识别…
alphasignal.ai

四、技术2:联邦学习

想想所有 Alex 设备、Prime Video 应用程序以及人们用于其亚马逊帐户的不同设备。如果亚马逊直接将数据发送回中心,他们的成本将失控。更不用说,亚马逊数据中心存储您的对话、购物等的巨大隐私危险信号。显然,这不是一个好主意。但是,您将如何根据新的用户交互来更新模型?

如果只是让模型在本地设备上更新怎么办?比如说,有一天我在手机上看了很多 Prime 上的恐怖电影。因此,我们更新了手机上的推荐系统,以适应我的新口味。完成这些更新后,我会与亚马逊中心共享更新。你,我的爱人,刚刚了解了联邦学习。

在这里插入图片描述

这有几个好处。首先,模型更新的数据比原始数据小得多,这使得处理和存储成本大大降低。其次,这在隐私方面带来了巨大的好处。即使有人确实获得了这些数据的访问权限,他们看到的也只是巨大的巨无霸。模型更新数据不是人类可读的,因此没有人可以看到您一直在狂欢的内容。在不知道确切架构的情况下,它无法插入模型来重建您的习惯。

照片由 米克·豪普特 on Unsplash

五、技术 3:ML 中的公平性

机器学习中一个被忽视的问题是存在有偏见的数据集。当您从不能准确表示基础统计信息的数据源中对数据进行采样时,通常会出现有偏差的数据集。例如,假设您想就一项新政策获得全国意见。但在你的调查中,你得到的回答大多来自大学生。在这种情况下,你的分析会有偏见,因为你的国家主要不是大学生。有偏见的数据集是一个比大多数人意识到的更大的问题。

以我在本文开头分享的种族主义 ChatGPT 示例为例。大多数头脑LinkedIn影响者都很高兴称其为种族主义者,并在那里结束他们的分析。但是,这是不准确的。实际上,这很可能是有偏差的数据样本的情况。ChatGPT 可能抓取了以美国为主的数据集,从而对其进行了分析。我这样做是基于这样一个事实,即我的种族(印度/东南亚人)在基于智力的种族排名中甚至没有被提及(我们被归入另一类)。考虑到有多少东南亚人,不把他们作为自己的种族是没有意义的。除非你考虑到这样一个事实,即在美国数据集中,拉丁裔被提及的次数比东南亚人(或原住民等)多得多。这是前面提到的排名——

在这里插入图片描述

亚马逊提到了 LLM 数据集有偏差的问题——

自然语言处理应用程序越来越依赖在固有偏见的 Web 规模语料库上训练的大型语言模型,这放大了准确的公平性指标和程序对于构建更强大的模型的重要性。

他们的出版物“减轻知识图谱嵌入中的社会偏见”对此进行了更详细的探讨。它涵盖了偏见存在的几种有趣方式。
在这里插入图片描述

他们使用各种技术(如属性替换)来对抗偏见,否则这些偏见将被编码在知识图谱中。

在这里插入图片描述

除此之外,他们还研究了用于量化公平性的指标。在论文“关于语境化语言表示的内在和外在公平性评估指标”中,他们表明用于衡量公平性的常用指标反映了其数据集的偏差——
在这里插入图片描述

为了解决这个问题,亚马逊创建了自己的一些指标。

在这里插入图片描述

摘自“通过预测灵敏度衡量文本分类器的公平性”
为了克服公共数据集中的性别偏见问题,亚马逊实施了以下程序——

我们提出了基于反事实角色反转的基本知识蒸馏的两种修改——修改教师概率和增强训练集。

再一次,数据增强似乎是一个非常重要的元素。在本例中,它用于平衡基础数据分布。通过这样做,他们能够创建更公平的模型。

我将以一个有趣的观察来结束这篇文章。亚马逊用来实现的许多程序并没有什么特别之处。没有噱头,没有什么真正让你挠头的。相反,这里提到的大多数技术(以及他们的论文中)只是在非常高的水平上执行的合理解决方案。是的,人工智能是一个瞬息万变的领域,不断变化。然而,其中许多改进都是基于良好的坚实基础。了解它们将使您与最重要的发展保持联系。

标签:机器,模型,偏见,亚马逊,学习,Amazon,隐私,信赖,数据
From: https://blog.csdn.net/gongdiwudu/article/details/139441987

相关文章