首页 > 其他分享 >Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

时间:2024-06-11 11:22:56浏览次数:34  
标签:VLM CLIP Language Models 任务 Shot reward shot


发表时间:2024(ICLR2024)
文章要点: 文章提出用预训练的视觉语言模型作为zero-shot的reward model(VLM-RMs)。好处在于可以通过自然语言来给定一个具体的任务,通过VLM-RMs让强化学习基于reward学习这个任务(using pretrained vision-language models (VLMs) as zero shot reward models (RMs) to specify tasks via natural language)。这样的好处是不用人工设计reward,而且任务自定义扩大了强化的适用范围。
具体的,作者用CLIP作为基础模型,其中包括CLIP image encoder和CLIP language encoder。将图片和任务描述编码成embedding后计算余弦相似度得到reward。

方法基本上就这么简单。
此外作者还设计了一个Goal-Baseline Regularization,不过在mujoco上没效果。这个regularization的出发点是想讲无关信息去掉,指保留和任务相关的信息来计算reward(projecting out irrelevant information about the observation)。具体的,除了任务描述外,还定义了一个baseline描述,比如任务描述是a humanoid robot kneeling,baseline描述是a humanoid robot。然后reward定义为

这个proj的目的是projecting our state embedding onto the line spanned by the baseline and task embeddings。不过作者也说了这个映射并不一定就正确,后面mujoco的实验也表明不用其实效果更好。
还有个细节就是图像的纹理,作者发现图片更真实的话,reward更准确(zero-shot VLM-based rewards work better in environments that are more “photorealistic” because they are closer to the training distribution of the underlying VLM)。
总结:很有意思的工作,任务可以自己定义了,而且是图像输入。效果看起来还不算惊艳,不过方向应用面很广。作者在附录里也说了,这种方式主要还是focus on goal-based tasks,因为reward的计算是基于状态和任务的相似度的,这种设计比较顺理成章(because they are most straightforward to specify using image-text encoder VLMs.)。
不过文章确实方法上novelty有限,实验也做的很少,有两个reject也合理。不过架不住有人抬一手啊,换做我们肯定凉透了。
疑问:文章说alpha取0的时候就是不带regularization的reward,没看出来这两式子一样呢?

标签:VLM,CLIP,Language,Models,任务,Shot,reward,shot
From: https://www.cnblogs.com/initial-h/p/18218144

相关文章

  • server-1.0-SNAPSHOT.jar中没有主清单属性
    server-1.0-SNAPSHOT.jar中没有主清单属性问题出在<pluginManagement></pluginManagement>标签内部插件配置无效,导致spring-boot-maven-plugin未生效。因此,在执行mvncleanpackage后,尝试运行JAR文件时会出现错误。解决方法是移除<pluginManagement>标签,直接在<build>......
  • BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and
    Motivation&Abs端到端大规模视觉语言预训练的开销极大。为此,本文提出了BLIP2,利用现成的冻住的imageencoder以及LLM引导视觉语言预训练。模态差距:通过两阶段训练的轻量级的QueryTransformer(Q-Former)弥补。第一阶段:从冻结的imageencoder引导VL学习;第二阶段:从冻结的LLM引导视......
  • 成员推理攻击(Membership Inference Attacks Against Machine Learning Models)通俗易懂
    成员推理攻击是一种面向AI模型的数据隐私窃取,攻击者以判断==数据是否来源于AI模型的训练集==为目标,本质上是对未知来源的数据进行==二分类==,给出成员数据或者非成员数据的判定。攻击者训练一个二分类器,该分类器将==目标分类器==预测的数据样本的置信度分数向量作为输入,预测该......
  • vivado与modelsim联合仿真
    写在前面:联合仿真需要版本对应,我的2020的modelsim和2020的vivado是可以用的。如果不对应,下边会编译报错。第一步,编译仿真库文件。点击菜单栏Tools-->CompileSimLibary,第一行Simulator选择Modelsim接下来Family选择你需要的器件对应的Family。Compiledlibraryloc......
  • TexQ: Zero-shot Network Quantization with Texture Feature Distribution Calibrati
    我们使用以下这六个标准对网络量化和相关领域的研究进行分类。以下是每个标准的详细解释,并结合了参考文献中的相关研究:研究领域:该标准将研究大致分为三个主要领域:量化:这是上传论文的核心焦点。它涉及减少模型参数的位宽(例如,从32位浮点数到4位整数)等技术,以压缩模型并提......
  • CLIP(Contrastive Language-Image Pre-training)
    CLIP(ContrastiveLanguage-ImagePre-training)是一种多模态预训练神经网络模型,由OpenAI在2021年初发布469。CLIP的核心创新在于其能够将图像和文本映射到一个共享的向量空间中,使得模型能够理解图像和文本之间的语义关系1。CLIP模型的架构非常简洁,但在zero-shot文本-图像检索、z......
  • Dated Data: Tracing Knowledge Cutoffs in Large Language Models
    本文是LLM系列文章,针对《DatedData:TracingKnowledgeCutoffsinLargeLanguageModels》的翻译。日期数据:追踪大型语言模型中的知识截断摘要1引言2相关工作3方法4结果5为什么模型与截止日期不一致?6结论摘要已发布的大型语言模型(LLM)通常与声称的......
  • Optimizing Language Augmentation for Multilingual Large Language Models: A Case
    本文是LLM系列文章,针对《OptimizingLanguageAugmentationforMultilingualLargeLanguageModels:ACaseStudyonKorean》的翻译。优化多语言大型语言模型的语言增强——以朝鲜语为例摘要1引言2相关工作3丰富MLLM词汇4LIMA上的指令调整5定量评估6定......
  • Efficient Pruning of Large Language Model with Adaptive Estimation Fusion
    本文是LLM系列文章,针对《EfficientPruningofLargeLanguageModelwithAdaptiveEstimationFusion》的翻译。基于自适应估计融合的大型语言模型的高效修剪摘要1引言2相关工作3方法4实验5结论摘要大型语言模型(LLM)已经成为许多生成下游任务的关键,这......
  • Large Language Models are Zero-Shot Rankers for Recommender Systems论文阅读笔记
    LargeLanguageModelsareZero-ShotRankersforRecommenderSystems论文阅读笔记Abstract​ 本工作旨在调查作为推荐系统的排名模型的LLM的能力。我们首先将推荐问题形式化为一个条件排序任务,将顺序交互历史作为条件,并将其他候选生成模型检索到的项目作为候选项。为了解决LL......