首页 > 其他分享 >大模型的有害性(性能差异、社会偏见和刻板印象、有害信息、虚假信息)

大模型的有害性(性能差异、社会偏见和刻板印象、有害信息、虚假信息)

时间:2024-01-28 22:23:11浏览次数:19  
标签:有害信息 模型 刻板 偏见 伤害 信息 有害

新兴技术的危害

回顾历史,从过往历史中的其他领域中的危害、安全和伦理问题的防御进行了解。

首先考虑一些在具有成熟的危害和安全传统的学科中使用的高层次思想和方法,有助于对当前AI领域有所借鉴。

①贝尔蒙特报告(1979年编写,概述了三个原则——尊重人员、善行和公正)和IRB(审查和批准涉及人类研究的委员会)。

②生物伦理学和CRISPR(社区标准:禁止将这些技术用于许多形式的人类基因编辑,违者开除)。

③食品和药物管理局FDA(负责制定安全标准的监管机构,对食品和药物进行多个阶段的测试,以验证其安全性)和食品安全。

性能差异相关的危害

性能差异:模型在某些群体中表现更,在其他群体中表现更

反馈循环随着时间的推移放大差异:如果系统对某些用户无法正常工作,他们就不会使用这些系统,并且会生成更少的数据,从而导致未来的系统表现出更大的差异。

社会偏见:将某个概念(例如科学)与某些群体(例如男性)相对其他群体(例如女性)进行系统关联。

刻板印象:一种特定且普遍存在的社会偏见形式,其中的关联是被广泛持有、过度简化并且一般固定的。

LLMs有可能通过多种方式造成伤害,包括性能差异和社会偏见。

理解这些伤害对社会造成的影响,需要考虑涉及的社会群体及其状况,例如历史上的边缘化、权力的缺乏。

考虑任何技术时,都必须仔细权衡其带来的利益与伤害。但这个任务非常复杂!

权衡其利益与伤害的任务复杂的原因

①利益与伤害很难量化

②即使能够量化,其在人口中的分布也并不均匀(边缘化的群体往往承受更多的伤害)。

如何在这些之间做出权衡是一个棘手的伦理问题(甚至还要从人道和从经济角度考虑处理伤害的投入)

③做出决定的决策者的权利能否给他们决策的资格

有毒性和假信息(toxicity 和 disinformation)

大型语言模型可能产生攻击性的、有害的内容,或者产生误导性的内容。

语言模型处理的是文本,这是它们接受训练的数据,并且擅长捕获统计模式。

伤害涉及的是人,即某个人收到一段文本并因此感到困扰或受伤。

需要将伤害视为文本属性,从更广泛的社会语境中考虑。什么构成有害内容非常依赖于具体环境。

鉴于大型互联网公司的规模,人工进行内容审核是不可能(也是不人道)的。

因此,公司逐渐转向AI来自动化这个过程。审核的结果可能是硬性的(阻止、删除)或者是软性的(标记、隐藏)。

允许什么内容的决定基本上是政治性的。

语言模型:

①可被用来生成有毒的内容,恶意行为者可以利用它们来扩大自己的信息传播;

②可被用来检测假信息,从而帮助进行内容审核。

误导性信息(Misinformation):不论意图如何,被误导性地呈现为真实的错误信息。

虚假信息(Disinformation):有意为之地呈现错误或误导性信息以欺骗某一特定受众,其中存在对抗性质。

虚假信息满足:新颖(避免被基于哈希的内容审核系统检测),通顺(被目标受众易读),有说服力(被目标受众所信),并传达虚假信息战役的信息。

来源

so-large-lm/docs/content/ch09.md at main · datawhalechina/so-large-lm (github.com)

so-large-lm/docs/content/ch10.md at main · datawhalechina/so-large-lm (github.com)

上面的延申阅读里有很多值得看的论文

心得

本次第九章和第十章主要是关注了大模型的有害性。
先通过其他新兴技术的有害性及其有关的伦理问题来进行引入和参考。

比如之前的贝尔蒙特报告的尊重人员、善行和公正的原则、确保安全,大约19年时比较火热的基因编辑,以及食品安全的多个原则。

在我们专业领域里,医疗器械的安全也有一些原则,这些原则影响着一个医疗器械是否会进入消费者领域,从而避免对患者产生不良影响。

我们领域有CT设备,里面有强磁场。患者如果佩戴金属物,就可能被强磁场吸入CT机,我记得我们课程PPT里有轮椅推入CT室被吸入变形的可怕景象。

第九章里我印象比较深刻的是社会群体中的正反馈现象,其中女性、黑人等一些少数群体,他们使用大模型产品时如果得到的效果不够好,可能会减少对模型的使用,从而减少对模型输入数据的进一步输入,在之后的模型里的效果更不好了。

这就是一种偏见的“自激振荡”hhh,借用一下我们专业里自控原理/高频的常用术语。

总之边缘化群体更有可能被忽视,需要研究者、模型设计者以及模型落地部署者的关注。

知道模型存在偏见后,还需要从定性到定量,定量是在量化模型的危害,从而使得模型的有害性可以被证实。

就刻板印象而言,所有模型都对刻板印象数据系统有偏好,而大的模型有较高的刻板印象得分。

很多上游模型不能可靠预测下游性能差异以及其产生的实质性伤害。

关于伦理问题,要考虑的东西非常复杂。而有毒性的界定取决于上下文。

一个坏词的出现并不意味着这个结果是有害的,判定有害性比想象的要复杂,不能仅通过坏词,因为有伤害性的文本可能是不包含坏词的。

标签:有害信息,模型,刻板,偏见,伤害,信息,有害
From: https://www.cnblogs.com/asandstar/p/17993538

相关文章

  • 你眼中的程序员 vs 程序员眼中的自己,是时候打破刻板印象了丨KubeCon 主题活动
    有人说,程序员工作赚钱真简单,电脑上按按键盘就行了,一点也不辛苦。有人说,程序员不懂生活,就知道天天对着电脑。“在长辈眼里,程序员是坐办公室的神秘职业、高级白领;在朋友邻居眼里,程序员是修电脑高手;在异性眼里,程序员是不修边幅的宅男,但是程序员的梦想大部分都是改变世界。”如果我们打......
  • 你眼中的程序员 vs 程序员眼中的自己,是时候打破刻板印象了丨KubeCon 主题活动
    有人说,程序员工作赚钱真简单,电脑上按按键盘就行了,一点也不辛苦。有人说,程序员不懂生活,就知道天天对着电脑。“在长辈眼里,程序员是坐办公室的神秘职业、高级白领;在朋友邻居眼里,程序员是修电脑高手;在异性眼里,程序员是不修边幅的宅男,但是程序员的梦想大部分都是改变世界。”如果我......
  • 偏见可以有多「可怕」?
    作者:演化战略马北苍链接:https://www.zhihu.com/question/48962925/answer/3191680467来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。偏见与逻辑自洽是最大的战略认知障,也是最大的战略认知绊脚石,偏见往往会造成战略机会的错失,以及战略布局的歧途......
  • Aequitas 偏见和公平审计工具包——如果是真的数据不均衡,效果会不会很差呢?
    偏见和公平审计工具包http://aequitas.dssg.io/ 偏见报告由Aequitas提供支持,这是一个开源偏见审计工具包,供机器学习开发人员、分析师和政策制定者审计机器学习模型的歧视和偏见,并围绕开发和部署预测性风险评估工具做出明智和公平的决策。请参阅有关COMPAS风险评估分数的示例报告......
  • 道德与社会问题简报 #4: 文生图模型中的偏见
    简而言之:我们需要更好的方法来评估文生图模型中的偏见介绍文本到图像(TTI)生成现在非常流行,成千上万的TTI模型被上传到HuggingFaceHub。每种模态都可能受到不同来源的偏见影响,这就引出了一个问题:我们如何发现这些模型中的偏见?在当前的博客文章中,我们分享了我们对TT......
  • 互联网不良信息泛滥 亿威有害信息过滤出新招
    10/23/200910:35:43PM随着信息化进程的推进,我国信息化正快速发展,互联网上出现了大量色情、赌博、反动信息。IDC作为信息资源最集中的地方,成为寄生这些违法信息的源地,严重地影响了国家安全和企业的健康有序发展。这些信息在互联网上传播速度快、范围广、影响大,严重地危害了国家......
  • 爱情与婚姻的名著---《傲慢与偏见》读后感
    爱情是简单而纯粹的东西,不论是财产、身份还是傲慢、偏见,它们终于是无法改变爱情的本质,希望我们在与人交往中,能让彼此的心灵靠的近一些,也许这个世界并不是我们想的那个样子。傲慢与偏见(2023.02.02夜)过年这几天玩的也是挺嗨的,可对于我来说,越是处于这样的状态,我对安稳......
  • 英文论文写作尽量避免使用偏见色彩词语
    在英文论文写作过程中,偏见色彩词语可能会让读者产生负面印象。为了避免这种情况,我们需要学会如何撰写中立、客观的论文。本文将为你提供一些建议,帮助你在写作过程中避免偏见,同时让论文更具吸引力。确保客观性在写作过程中,我们需要保持客观,尊重事实。避免在描述研究对象时使用贬义......
  • 偏见
    你的偏见究竟是多么地严厉。一首听着不错的歌,只因看到了歌者的封面,心里就产生了一丝的不悦。王莽,人如其名。一介莽夫,如黑旋风李逵,如花和尚鲁智深。终于有一天,识得其人。竟有儒生治天下。在这多雨的江南,每每逢雨,总是会想起“大弦嘈嘈如急雨,小弦切切如私语。嘈嘈切切......
  • 人们声称渴望创造力,实际却心存各种偏见
    你的一个好的点子石沉大海或者就此湮灭,你或许只能看着你的同事表示很遗憾。最新的研究表明他们很多人甚至不知道神马才是有创意的点子。“人们总是嘴上说希望来点创造力,......