首页 > 其他分享 >NLP论文速读(ICML 2024)|通过人的反馈实现质量多样性(Quality Diversity through Human Feedback:Towards Open-Ended ……)

NLP论文速读(ICML 2024)|通过人的反馈实现质量多样性(Quality Diversity through Human Feedback:Towards Open-Ended ……)

时间:2025-01-15 11:59:28浏览次数:3  
标签:NLP 嵌入 速读 Feedback 解决方案 多样性 算法 QD 人类

论文速读|Quality Diversity through Human Feedback:Towards Open-Ended Diversity-Driven Optimization

论文信息:

图片

简介:

      本文的背景主要涉及两个领域:强化学习从人类反馈(Reinforcement Learning from Human Feedback, RLHF)和质量多样性(Quality Diversity, QD)算法。RLHF在缺乏明确性能指标的定性任务中显示出潜力,但通常用于优化平均人类偏好,这在需要模型响应多样性的生成任务中存在局限性。QD算法擅长识别多样且高质量的解决方案,但通常依赖于手动设计的多样性指标,这限制了其在复杂和开放领域任务中的适用性。

      本文旨在结合这两种方法的优势,提出一种新的方法,通过人类反馈来推断多样性指标,从而增强QD算法在复杂和开放领域中的适用性和有效性。

      本文的动机是通过人类反馈来推断多样性指标,从而提高QD算法在复杂和开放领域中的性能。具体动机包括:提高多样性和质量:在生成任务中,如文本到图像生成,需要模型能够生成多样且高质量的响应,以满足不同用户的需求。适应复杂任务:在复杂和开放领域中,手动设计多样性指标是不切实际的,因此需要一种自动发现多样性指标的方法。增强探索能力:多样性鼓励探索,这对于找到复杂问题的新颖和有效解决方案至关重要。没有多样性,优化算法可能会过早收敛,陷入局部最优或产生有限的响应集。

论文方法:

图片

      本文提出了一种名为Quality Diversity through Human Feedback (QDHF)的新方法,通过人类反馈逐步推断多样性指标,从而增强QD算法在复杂和开放领域中的适用性和有效性。

      具体方法步骤如下:

      第一步:多样性特征表示特征提取:使用一个特征提取器将输入数据转换为特征空间。这个特征提取器可以是任何能够将原始数据转换为有意义特征的模型。

      第二步:潜空间投影:将提取的特征通过一个投影函数转换到一个更紧凑的潜空间。潜空间中的每个维度代表一个多样性指标,这些维度的大小和方向捕捉了不同的多样性概念,提供了一个紧凑且信息丰富的输入表示。

      第三步:参数学习:投影函数的参数通过对比学习过程进行学习。

      第四步:对齐多样性指标与人类直觉对比学习:使用对比学习策略,通过优化潜空间中的距离关系,使相似的嵌入更接近,不相似的嵌入更远离。具体来说,给定三个潜空间嵌入,如果人类判断第一个嵌入与第二个嵌入比与第三个嵌入更相似,那么就优化潜空间中的距离,使第一个和第二个嵌入的距离变小,而与第三个嵌入的距离变大。

      第五步:人类相似性判断:使用Two Alternative Forced Choice (2AFC)方法获取人类对解决方案相似性的判断。当呈现三个解决方案时,评估者需要判断哪两个解决方案更相似。这种方法不仅适用于人类判断,也适用于启发式方法和AI系统生成的判断,使得框架在不同的反馈模式下都具有普遍适用性。

论文实验:

图片

      机器人臂任务的目标是为平面机器人臂的每个可达位置找到一个逆运动学解。

      具体来说,任务是通过最小化关节角度的方差来优化解决方案。标准的多样性测量方法是机器人臂末端位置在2D空间中的坐标,这些坐标通过机器人臂的正运动学计算得出。

      实验结果如表1所示,统计结果是基于20次重复试验得出的。

      表中报告了QD分数(归一化到0-100的规模)和覆盖度,分别针对“所有解决方案”(整个训练过程中发现的解决方案)和“档案解决方案”(最终档案中的解决方案)。

      实验结果表明,QDHF在机器人臂任务中显著优于AURORA和QDHF-Base,接近使用真实多样性指标的标准QD算法的性能。这表明QDHF能够通过人类反馈有效地推断多样性指标,从而提高QD算法在复杂和开放领域中的适用性和有效性。

论文链接:https://openreview.net/pdf?id=9zlZuAAb08

标签:NLP,嵌入,速读,Feedback,解决方案,多样性,算法,QD,人类
From: https://blog.csdn.net/2401_85576118/article/details/145157264

相关文章

  • My CVPR Learning-Feedback
    2024视觉-语言 EfficientVision-LanguagePre-trainingbyClusterMasking图像包含大量冗余信息,这使得从图像中高效学习表示变得具有挑战性,提出了一种在视觉-语言对比学习过程中对图像块进行聚类掩蔽的策略论文方法:随机聚类掩蔽:在训练过程中,随机选择图像块作为聚类中......
  • NLP 进阶:BERT + CRF 用于命名实体识别(NER)
    引言:命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它帮助我们从文本中识别出具有特定意义的实体,例如人名、地名、组织机构等。在许多NER任务中,结合BERT和CRF(条件随机场)提供了强大的性能提升。今天,我们将深入探讨如何将BERT与CRF结合,打造一个高效、精准的命名实......
  • NLP 进阶:BERT + CNN 结合打造高效文本分类模型!
    引言:在自然语言处理(NLP)中,文本分类任务是一个核心问题,涵盖了情感分析、新闻分类、垃圾邮件检测等多个领域。传统的深度学习方法虽然取得了一定的成效,但随着BERT(BidirectionalEncoderRepresentationsfromTransformers)和CNN(ConvolutionalNeuralNetworks)技术的出现,文本分......
  • 【Flutter&Dart】tolyui_feedback组件例子效果(23 /100)
    上效果图有12种位置展示效果;很能满足大部分需要代码如下:import'package:flutter/material.dart';import'package:tolyui_feedback/tolyui_feedback.dart';classTolyTooltipDemoextendsStatelessWidget{constTolyTooltipDemo({super.key});@override......
  • Redis 是一个开源的高性能键值对存储数据库,通常被用作缓存、消息队列和持久化数据库。
    Redis服务器是什么?Redis是一个开源的高性能键值对存储数据库,通常被用作缓存、消息队列和持久化数据库。Redis支持多种数据结构,如字符串、哈希、列表、集合、有序集合、位图等。它被广泛用于需要快速读写操作、低延迟的场景。Redis可以作为一个独立的数据库使用,也可以作为缓......
  • 什么是NLP语言:一文详解
    什么是NLP语言:一文详解自然语言处理(NLP,NaturalLanguageProcessing)是计算机科学与人工智能领域的一个重要分支,旨在让计算机能够理解、解释和生成自然语言(即人类语言)。NLP结合了语言学、计算机科学和机器学习,利用统计学和算法分析、处理和生成语言。NLP语言通常指的是自然......
  • 【大厂面试AI算法题中的知识点】方向涉及:ML/DL/CV/NLP/大数据...本篇介绍训练网络的时
    【大厂面试AI算法题中的知识点】方向涉及:ML/DL/CV/NLP/大数据…本篇介绍训练网络的时候如何判断过拟合和欠拟合?【大厂面试AI算法题中的知识点】方向涉及:ML/DL/CV/NLP/大数据…本篇介绍训练网络的时候如何判断过拟合和欠拟合?文章目录【大厂面试AI算法题中的知识点】方......
  • 【大厂面试AI算法题中的知识点】方向涉及:ML/DL/CV/NLP/大数据...本篇介绍自动驾驶检测
    【大厂面试AI算法题中的知识点】方向涉及:ML/DL/CV/NLP/大数据…本篇介绍自动驾驶检测模型如何针对cornercase优化?【大厂面试AI算法题中的知识点】方向涉及:ML/DL/CV/NLP/大数据…本篇介绍自动驾驶检测模型如何针对cornercase优化?文章目录【大厂面试AI算法题中的知......
  • 论文速读:SiamRPN++,利用深度网络实现Siamese视觉跟踪的进化
     原文标题:SiamRPN++:EvolutionofSiameseVisualTrackingwithVeryDeepNetworks中文标题:SiamRPN++:利用深度网络实现Siamese视觉跟踪的进化今天要介绍的是来自商汤团队发表在CVPR上一篇目标检测跟踪的文章。文章非常经典,直到现在也有很多地方正在使用该架构。详细精......
  • class="glyphicon glyphicon-lock form-control-feedback"
    AI生成:在Bootstrap中,class="glyphiconglyphicon-lockform-control-feedback"是一个用于显示图标并提供表单验证反馈的类组合。这个组合通常用于表单中,以在输入框旁边显示一个图标,表示输入状态(如有效、无效或正在验证等)。以下是每个类的详细解释:类解释glyphicon:这是Bo......