Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

时间：2024-06-11 11:22:56浏览次数：34

标签：VLM CLIP Language Models 任务 Shot reward shot

发表时间：2024(ICLR2024)
文章要点： 文章提出用预训练的视觉语言模型作为zero-shot的reward model（VLM-RMs）。好处在于可以通过自然语言来给定一个具体的任务，通过VLM-RMs让强化学习基于reward学习这个任务（using pretrained vision-language models (VLMs) as zero shot reward models (RMs) to specify tasks via natural language）。这样的好处是不用人工设计reward，而且任务自定义扩大了强化的适用范围。
具体的，作者用CLIP作为基础模型，其中包括CLIP image encoder和CLIP language encoder。将图片和任务描述编码成embedding后计算余弦相似度得到reward。

方法基本上就这么简单。
此外作者还设计了一个Goal-Baseline Regularization，不过在mujoco上没效果。这个regularization的出发点是想讲无关信息去掉，指保留和任务相关的信息来计算reward（projecting out irrelevant information about the observation）。具体的，除了任务描述外，还定义了一个baseline描述，比如任务描述是a humanoid robot kneeling，baseline描述是a humanoid robot。然后reward定义为

这个proj的目的是projecting our state embedding onto the line spanned by the baseline and task embeddings。不过作者也说了这个映射并不一定就正确，后面mujoco的实验也表明不用其实效果更好。
还有个细节就是图像的纹理，作者发现图片更真实的话，reward更准确（zero-shot VLM-based rewards work better in environments that are more “photorealistic” because they are closer to the training distribution of the underlying VLM）。
总结：很有意思的工作，任务可以自己定义了，而且是图像输入。效果看起来还不算惊艳，不过方向应用面很广。作者在附录里也说了，这种方式主要还是focus on goal-based tasks，因为reward的计算是基于状态和任务的相似度的，这种设计比较顺理成章（because they are most straightforward to specify using image-text encoder VLMs.）。
不过文章确实方法上novelty有限，实验也做的很少，有两个reject也合理。不过架不住有人抬一手啊，换做我们肯定凉透了。
疑问：文章说alpha取0的时候就是不带regularization的reward，没看出来这两式子一样呢？

标签：VLM,CLIP,Language,Models,任务,Shot,reward,shot
From： https://www.cnblogs.com/initial-h/p/18218144

server-1.0-SNAPSHOT.jar中没有主清单属性
server-1.0-SNAPSHOT.jar中没有主清单属性问题出在<pluginManagement></pluginManagement>标签内部插件配置无效，导致spring-boot-maven-plugin未生效。因此，在执行mvncleanpackage后，尝试运行JAR文件时会出现错误。解决方法是移除<pluginManagement>标签，直接在<build>......
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and
Motivation&Abs端到端大规模视觉语言预训练的开销极大。为此，本文提出了BLIP2，利用现成的冻住的imageencoder以及LLM引导视觉语言预训练。模态差距：通过两阶段训练的轻量级的QueryTransformer（Q-Former）弥补。第一阶段：从冻结的imageencoder引导VL学习；第二阶段：从冻结的LLM引导视......
成员推理攻击（Membership Inference Attacks Against Machine Learning Models）通俗易懂
成员推理攻击是一种面向AI模型的数据隐私窃取，攻击者以判断==数据是否来源于AI模型的训练集==为目标，本质上是对未知来源的数据进行==二分类==，给出成员数据或者非成员数据的判定。攻击者训练一个二分类器，该分类器将==目标分类器==预测的数据样本的置信度分数向量作为输入，预测该......
vivado与modelsim联合仿真
写在前面：联合仿真需要版本对应，我的2020的modelsim和2020的vivado是可以用的。如果不对应，下边会编译报错。第一步，编译仿真库文件。点击菜单栏Tools-->CompileSimLibary，第一行Simulator选择Modelsim接下来Family选择你需要的器件对应的Family。Compiledlibraryloc......
TexQ: Zero-shot Network Quantization with Texture Feature Distribution Calibrati
我们使用以下这六个标准对网络量化和相关领域的研究进行分类。以下是每个标准的详细解释，并结合了参考文献中的相关研究：研究领域：该标准将研究大致分为三个主要领域：量化：这是上传论文的核心焦点。它涉及减少模型参数的位宽（例如，从32位浮点数到4位整数）等技术，以压缩模型并提......
CLIP（Contrastive Language-Image Pre-training）
CLIP（ContrastiveLanguage-ImagePre-training）是一种多模态预训练神经网络模型，由OpenAI在2021年初发布469。CLIP的核心创新在于其能够将图像和文本映射到一个共享的向量空间中，使得模型能够理解图像和文本之间的语义关系1。CLIP模型的架构非常简洁，但在zero-shot文本-图像检索、z......
Dated Data: Tracing Knowledge Cutoffs in Large Language Models
本文是LLM系列文章，针对《DatedData:TracingKnowledgeCutoffsinLargeLanguageModels》的翻译。日期数据：追踪大型语言模型中的知识截断摘要1引言2相关工作3方法4结果5为什么模型与截止日期不一致？6结论摘要已发布的大型语言模型（LLM）通常与声称的......
Optimizing Language Augmentation for Multilingual Large Language Models: A Case
本文是LLM系列文章，针对《OptimizingLanguageAugmentationforMultilingualLargeLanguageModels:ACaseStudyonKorean》的翻译。优化多语言大型语言模型的语言增强——以朝鲜语为例摘要1引言2相关工作3丰富MLLM词汇4LIMA上的指令调整5定量评估6定......
Efficient Pruning of Large Language Model with Adaptive Estimation Fusion
本文是LLM系列文章，针对《EfficientPruningofLargeLanguageModelwithAdaptiveEstimationFusion》的翻译。基于自适应估计融合的大型语言模型的高效修剪摘要1引言2相关工作3方法4实验5结论摘要大型语言模型（LLM）已经成为许多生成下游任务的关键，这......
Large Language Models are Zero-Shot Rankers for Recommender Systems论文阅读笔记
LargeLanguageModelsareZero-ShotRankersforRecommenderSystems论文阅读笔记Abstract 本工作旨在调查作为推荐系统的排名模型的LLM的能力。我们首先将推荐问题形式化为一个条件排序任务，将顺序交互历史作为条件，并将其他候选生成模型检索到的项目作为候选项。为了解决LL......

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

相关文章

赞助商

阅读排行