大模型的有害性（性能差异、社会偏见和刻板印象、有害信息、虚假信息）

标签：有害信息模型刻板偏见伤害信息有害

新兴技术的危害

回顾历史，从过往历史中的其他领域中的危害、安全和伦理问题的防御进行了解。

首先考虑一些在具有成熟的危害和安全传统的学科中使用的高层次思想和方法，有助于对当前AI领域有所借鉴。

①贝尔蒙特报告（1979年编写，概述了三个原则——尊重人员、善行和公正）和IRB（审查和批准涉及人类研究的委员会）。

②生物伦理学和CRISPR（社区标准：禁止将这些技术用于许多形式的人类基因编辑，违者开除）。

③食品和药物管理局FDA（负责制定安全标准的监管机构，对食品和药物进行多个阶段的测试，以验证其安全性）和食品安全。

性能差异相关的危害

性能差异：模型在某些群体中表现更好，在其他群体中表现更差。

反馈循环随着时间的推移放大差异：如果系统对某些用户无法正常工作，他们就不会使用这些系统，并且会生成更少的数据，从而导致未来的系统表现出更大的差异。

社会偏见：将某个概念（例如科学）与某些群体（例如男性）相对其他群体（例如女性）进行系统关联。

刻板印象：一种特定且普遍存在的社会偏见形式，其中的关联是被广泛持有、过度简化并且一般固定的。

LLMs有可能通过多种方式造成伤害，包括性能差异和社会偏见。

理解这些伤害对社会造成的影响，需要考虑涉及的社会群体及其状况，例如历史上的边缘化、权力的缺乏。

考虑任何技术时，都必须仔细权衡其带来的利益与伤害。但这个任务非常复杂！

权衡其利益与伤害的任务复杂的原因

①利益与伤害很难量化

②即使能够量化，其在人口中的分布也并不均匀（边缘化的群体往往承受更多的伤害）。

如何在这些之间做出权衡是一个棘手的伦理问题（甚至还要从人道和从经济角度考虑处理伤害的投入）

③做出决定的决策者的权利能否给他们决策的资格

有毒性和假信息（toxicity 和 disinformation）

大型语言模型可能产生攻击性的、有害的内容，或者产生误导性的内容。

语言模型处理的是文本，这是它们接受训练的数据，并且擅长捕获统计模式。

伤害涉及的是人，即某个人收到一段文本并因此感到困扰或受伤。

需要将伤害视为文本属性，从更广泛的社会语境中考虑。什么构成有害内容非常依赖于具体环境。

鉴于大型互联网公司的规模，人工进行内容审核是不可能（也是不人道）的。

因此，公司逐渐转向AI来自动化这个过程。审核的结果可能是硬性的（阻止、删除）或者是软性的（标记、隐藏）。

允许什么内容的决定基本上是政治性的。

语言模型：

①可被用来生成有毒的内容，恶意行为者可以利用它们来扩大自己的信息传播；

②可被用来检测假信息，从而帮助进行内容审核。

误导性信息（Misinformation）：不论意图如何，被误导性地呈现为真实的错误信息。

虚假信息（Disinformation）：有意为之地呈现错误或误导性信息以欺骗某一特定受众，其中存在对抗性质。

虚假信息满足：新颖（避免被基于哈希的内容审核系统检测），通顺（被目标受众易读），有说服力（被目标受众所信），并传达虚假信息战役的信息。

来源

so-large-lm/docs/content/ch09.md at main · datawhalechina/so-large-lm (github.com)

so-large-lm/docs/content/ch10.md at main · datawhalechina/so-large-lm (github.com)

上面的延申阅读里有很多值得看的论文

心得

本次第九章和第十章主要是关注了大模型的有害性。
先通过其他新兴技术的有害性及其有关的伦理问题来进行引入和参考。

比如之前的贝尔蒙特报告的尊重人员、善行和公正的原则、确保安全，大约19年时比较火热的基因编辑，以及食品安全的多个原则。

在我们专业领域里，医疗器械的安全也有一些原则，这些原则影响着一个医疗器械是否会进入消费者领域，从而避免对患者产生不良影响。

我们领域有CT设备，里面有强磁场。患者如果佩戴金属物，就可能被强磁场吸入CT机，我记得我们课程PPT里有轮椅推入CT室被吸入变形的可怕景象。

第九章里我印象比较深刻的是社会群体中的正反馈现象，其中女性、黑人等一些少数群体，他们使用大模型产品时如果得到的效果不够好，可能会减少对模型的使用，从而减少对模型输入数据的进一步输入，在之后的模型里的效果更不好了。

这就是一种偏见的“自激振荡”hhh，借用一下我们专业里自控原理/高频的常用术语。

总之边缘化群体更有可能被忽视，需要研究者、模型设计者以及模型落地部署者的关注。

知道模型存在偏见后，还需要从定性到定量，定量是在量化模型的危害，从而使得模型的有害性可以被证实。

就刻板印象而言，所有模型都对刻板印象数据系统有偏好，而大的模型有较高的刻板印象得分。

很多上游模型不能可靠预测下游性能差异以及其产生的实质性伤害。

关于伦理问题，要考虑的东西非常复杂。而有毒性的界定取决于上下文。

一个坏词的出现并不意味着这个结果是有害的，判定有害性比想象的要复杂，不能仅通过坏词，因为有伤害性的文本可能是不包含坏词的。

标签：有害信息,模型,刻板,偏见,伤害,信息,有害
From： https://www.cnblogs.com/asandstar/p/17993538

大模型的有害性（性能差异、社会偏见和刻板印象、有害信息、虚假信息）

新兴技术的危害

性能差异相关的危害

权衡其利益与伤害的任务复杂的原因

有毒性和假信息（toxicity 和 disinformation）

来源

心得

相关文章

赞助商

阅读排行