首页 > 其他分享 >预训练语言模型去偏方法——与特定任务相关

预训练语言模型去偏方法——与特定任务相关

时间:2024-08-08 15:49:11浏览次数:7  
标签:采样 训练 模型 样本 鉴别器 学习 特定 对比 属性

 

一、对抗学习

1.1 ADV-标准对抗  

  

  • 主要思想:防止鉴别器识别受保护的属性。以对抗性方法训练模型,并明确掩盖受保护信息。
  • 损失函数:

        

1.2 EADV-优化对抗

  • ADV存在的问题:在某些情况下,即使对抗性组件似乎做得很完美,仍有相当数量的受保护信息,并且可以从编码的表示中提取。
  • EADV主要思想:探索提高对抗性训练的优化方法。
  • 优化方法: 1、增加鉴别器的隐藏维数; 2、在训练过程中,为对抗性成分分配不同的权重; 3、使用具有不同初始化的鉴别器集合; 4、每个t个epoch后, 重新初始化鉴别器的权重。

  • 集合鉴别器的效果最好,不同的鉴别器可以各自专注于代表的不同方面。

 

1.3 DADV-正交集成对抗  

    

  • EADV存在的问题:它不能确保不同的子鉴别器专注于表示的不同方面。
  • DADV主要思想:采用多个具有正交性正则化的鉴别器进行对抗性训练。鼓励鉴别器相互学习正交的隐藏表示。

 

1.4 A-ADV-考虑目标标签的对抗

    

  •  之前的对抗存在的问题:删除受保护信息时没有考虑目标标签。
  • A-ADV主要思想:在m和d之间增加了一个额外的增强层a,其中a考虑了y来创建更丰富的特征。由于a提供了增强的表示,d能够基于ha做出更好的预测g。

 

二、对比学习

1、主要思想:对比方法学习正样本对的相似表示和负样本对的不同表示。

2、构建正负样本对:

  • 传统的InfoNCE方法:从联合分布PXY中采样正样本对(x和y是不同的视图;例如,同一图像的增广变体),从边际分布PXPY采样负样本对(例如,x和y是两个随机图像)。InfoNCE的目标是最大化从联合分布抽样的数据对之间的相似性得分,并最小化从边际分布抽样的数据对之间的相似性得分。

 

3、条件对比学习:

  • Weakly Supervised:将来自数据的辅助信息(如图像的标注属性)作为一个弱监督信号,对具有相同辅助信息的数据学习相似的表示,对具有不同辅助信息的数据学习不同的表示。
  • Fair:对包含敏感属性的样本中抽取负样本,来消除表征中不希望的敏感信息(如性别)。可以防止模型使用敏感信息区分正对和负对(因为所有正和负样本具有相同的结果),模型在对比学习过程中忽略敏感属性的影响。
  • Hard-negative:对比学习可以从硬负样本(即难以与x区分的样本y)中获益,但不是将两个任意的数据视为负对,而是从两个彼此相距不远的随机数据构建一个负对。

 

2.1 CCL-K-条件对比

  • 主要思想:对比方法学习正样本对的相似表示和负样本对的不同表示。
  • 条件对比学习存在的问题:给定一个x及其对应的条件变量结果z,如果z不常见,很难采样与z相关的y。
  • CCL-K:提出将这些目标转换为其他形式,以避免对PY |Z的数据进行抽样,并且可以保留与原始形式相同的功能。即不是从PY |Z中采样y,而是从现有的Y数据中采样y,这些数据的相关条件变量的结果接近于z。比如说:抽样年龄为80岁的样本,CCL-K不是直接对80岁的数据进行采样,而是对所有数据点进行采样,且为70-90岁的数据分配最高的权重。即用相似结果的数据来支持条件抽样。

 

2.2 CON-对比

  • 主要思想:对比方法学习正样本对的相似表示和负样本对的不同表示。CON通过结合对比学习来减轻分类器训练中的偏见,其中共享相同类标签的实例被鼓励具有相似的表示,而共享受保护属性的实例被强制进一步分开。
  • 目标函数:

    Lce:交叉熵损失,主任务的损失,分类更准确;

    Lscl: 主任务标签的实例相同的实例为正样本,不同的实例为负样本。拉近主任务标签相同的样本,最大限度地提高共享主任务标签的样本对的相似性;

    Lfcl: 受保护属性相同的样本互为正样本,不同的互为负样本。拉远受保护属性相同的样本;

    从保护属性的角度最小化这些对的样本对的相似性。即强制将具有不同受保护属性值的样本表示混合在一起,减少主任务和受保护属性之间的相关性。

 

 

三、投影

  • 主要思想:存在一个(完全)包含性别偏见信息的子空间。从表示中识别并删除一个线性子空间,防止任何线性预测器恢复该概念。

3.1 INLP

  • 主要思想:基于线性分类器的重复训练,线性分类器预测要删除的某个属性,然后将表征投影到其零空间上,即投影到不包含性别信息的空间上。

3.2 R-LACE

  • 主要思想:利用对抗学习,从表示中识别并删除性别子空间。

 

标签:采样,训练,模型,样本,鉴别器,学习,特定,对比,属性
From: https://www.cnblogs.com/yqw0710/p/18349056

相关文章

  • 大模型核心技术原理 Transformer架构详解
    在大模型发展历程中,有两个比较重要点:第一,Transformer架构。它是模型的底座,但Transformer不等于大模型,但大模型的架构可以基于Transformer;第二,GPT。严格意义上讲,GPT可能不算是一个模型,更像是一种预训练范式,它本身模型架构是基于Transformer,但GPT引入了“预测下一个词......
  • 书生.浦江大模型实战训练营——(一)InternStudio+Vscode SSH连接远程服务器+Linux基础指
    最近在学习书生.浦江大模型实战训练营,所有课程都免费,以关卡的形式学习,也比较有意思,提供免费的算力实战,真的很不错(无广)!欢迎大家一起学习,打开LLM探索大门:邀请连接,PS,邀请有算力哈哈。文章目录一、InternStudio使用二、VscodeSSH连接远程服务器三、Linux基础指令一......
  • 探索人工智能大模型在工业领域的应用与发展
    探索人工智能大模型在工业领域的应用与发展前言测评总结前言人工智能大模型在工业领域的应用正逐渐展现出其巨大的潜力。大模型能够在工业知识问答、工程建模、数据分析、文档生成和代码理解等多个场景中发挥重要作用。例如,在工业知识问答方面,大模型可以为企业员工......
  • 大模型与数据分析的融合:创新与发展的新机遇
    大模型与数据分析的融合:创新与发展的新机遇前言大模型与数据分析的融合前言大模型与数据分析的融合正成为推动企业发展的关键力量。大模型在数据分析领域展现出了强大的能力。它能够以接近人类的水平理解和处理自然语言,快速、准确地解析大量非结构化数据,如文本、用户......
  • 主打一个免费:英智LLM推理API,主流大模型API任你选!
     人工智能(AI)技术的飞速发展已经成为各行各业的关键驱动力,尤其是大语言模型(LLM)正在成为推动下一波技术创新浪潮的颠覆性力量。开发者如何享受LLM带来的红利,创造出优秀的应用?实践证明,使用大语言模型API,可以有事半功倍的效果! 部署过大模型的小伙伴应该都清楚,在本地部署L......
  • django特定地区冷链物流信息调度系统-计算机毕业设计源码92919
    摘要本研究针对特定地区的冷链物流信息调度系统进行了深入探索与实践。冷链物流作为一种特殊的物流方式,对于保障食品、药品等易腐产品的新鲜度和质量至关重要。然而,在特定地区,由于地理环境、经济水平和物流资源的限制,冷链物流面临着诸多挑战。因此,本研究旨在开发一套高效、智......
  • 代码随想录算法训练营第63天 | SPFA算法优化+变式
    94.城市间货物运输Ihttps://kamacoder.com/problempage.php?pid=1152Bellman_ford队列优化算法(又名SPFA)https://www.programmercarl.com/kamacoder/0094.城市间货物运输I-SPFA.html95.城市间货物运输IIhttps://kamacoder.com/problempage.php?pid=1153bellman_ford之判......
  • 大语言模型
    一.大语言模型1.大型语言模型(LLM)核心是注意力机制:通过注意力机制,Transformer能够聚焦于输入序列中的重要部分,类似于人类阅读时关注关键词。Transformer模型通过将输入序列分解为一个个独立的token(例如单词或字符),并分别对每个token应用注意力机制,从而能够并行处理整个序列,实......
  • Stage模型
    一、Stage模型的设计思想二、工程目录结构介绍              1、开发态包结构         文件类型说明配置文件包括应用级配置信息、以及Module级配置信息:- AppScope>app.json5:app.json5配置文件,用于声明应用的全局配置信息,比如应用Bundle......
  • 全网独一份!AI大模型学习训练资源...
    如何学习AI大模型?我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传......