ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

时间：2024-07-28 11:28:55浏览次数：23

标签：模态训练 ECCV 模型微调 BPO 2024 偏好

随着大型语言模型（LLMs）的进步，多模态大型语言模型（MLLMs）迅速发展。它们使用预训练的视觉编码器处理图像，并将图像与文本信息一同作为 Token 嵌入输入至 LLMs，从而扩展了模型处理图像输入的对话能力。这种能力的提升为自动驾驶和医疗助手等多种潜在应用领域带来了可能性。

点击访问我的技术博客https://ai.weoknow.comhttps://ai.weoknow.com

尽管 MLLMs 具有出色的图文理解能力，但它们仍然会出现错误或幻觉，生成与输入图像不相符的相应，例如回答不存在的对象或错误识别属性等。我们认为多模态大模型在不同训练阶段的数据量和训练时间的不平衡是产生这类偏见的主要原因之一。多模态大模型的语言模块往往使用了海量的文本数据进行预训练，而模态对齐阶段则使用更小的数据规模和更短的训练时间。

为了解决上述问题，我们提出了一种偏好对齐方法 --Bootstrapped Preference Optimization（BPO），能在缓解多模态大模型的幻觉现象的同时提升模型的视觉理解能力。

论文标题：Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization
论文链接：https://arxiv.org/pdf/2403.08730
代码链接：https://github.com/pipilurj/bootstrapped-preference-optimization-BPO-

具体来讲，我们设计了两种方法去自动构建偏好学习的负样本，使得多模态模型对与训练的过度依赖暴露出来。之后，我们用原本的数据标注当作正样本，对多模态模型进行偏好微调。总的来说，我们的主要贡献有：

1. 我们提出了一种新的视角，将多模态对齐问题转化为偏好学习任务，其中预训练偏见和视觉理解能力被视为旧的和新的偏好；

2. 我们介绍了一种自动化构建大规模偏好数据集的方法。通过该方法能构造出大量带有预训练偏见信息的负面样本；

3. 在大量实验上证明了我们的方法能有效地提升多模态大模型对于图像的认知能力，训练后的模型在多个基准测试中性能得到提升。

可扩展的偏好数据集构建

对于偏好数据集的正面样本，已经有许多为监督微调而设计的现成数据集，例如通过 LlaVA 和 MiniGPT4 生成的高质量标注问答数据、ShareGPTV 利用强大的 GPT4-V 作为工具为图像生成高质量标题。我们将这些已标注完成的公开数据集作为偏好数据集中的正面响应，在保证高质量数据对的同时避免了昂贵的人工标注。

为了能收集到能反映预训练偏见的负面响应数据，我们提出了两种方法。

a. 弱化图像提示：我们给偏好数据集中的图片数据加上噪声，以此破坏图像特征，使多模态大模型在回答时更倾向原始的预训练分布，由此产生的错误响应会包含 LLM 模块的固有偏见。从图中可以看到，我们通过像图片中加入不同程度的噪声，正确答案出现的概率就越小，带有预训练偏见的答案出现的概率也就越大。

b. 错误注入：我们要求多模态大模型对应的大语言模型直接改写响应，要求模型生成与答案相近但不完全一样的错误回答。

接下来，我们采用直接偏好优化（DPO）对多模态模型进行优化：

实验评估

我们采用经过 BPO 微调过后的 LLaVA 模型（LLaVA-7B-BPO 和 LLaVA-13B-BPO）在 MM-Vet，LLaVA-Wild 和 Object HalBench 上测试。MM-Vet 和 LlaVA-Bench 是专门用来衡量模型综合能力的榜单，Object HalBench 则是评估多模态大模型的视觉可信度。

实验结果表明，经过 BPO 微调后的模型在三个基准测试榜单的所有任务中均取得领先。在大多数任务上，LLaVA-7B-BPO 的表现甚至超过了未曾微调的 LLaVa1.5-13B 模型。

我们还将 BPO 与监督微调训练（SFT）进行对比。我们通过直接使用数据集中的正样本作为监督数据对模型进行微调。实验表明经过 BPO 微调过的多模态大模型在不同类别的子任务下的表现均优于 SFT 微调。

在定性结果上，我们对比了 BPO 微调前后多模态大模型的表现。我们发现经过 BPO 微调后的模型能生成更忠诚于图像输入的答案，并且包含更少错误信息。

更多研究细节，可参考原论文。

标签：模态,训练,ECCV,模型,微调,BPO,2024,偏好
From： https://blog.csdn.net/sinat_29984491/article/details/140748326

万亿token！史上最大多模态数据集诞生
开源多模态大模型或将开始腾飞。点击访问我的技术博客https://ai.weoknow.comhttps://ai.weoknow.com值此Llama3.1占领各大头条之际，又突然冒出了另一个也非常重要的发布——一个规模空前的开源多模态数据集。对大模型来说，数据集的重要性无需多言，甚至可以说没有......
布客社区未来规划 202407
一、翻译这个月FreeLearning系列教程会完全发布完毕https://wizard.blog.csdn.net/下半年安排如下：8~9月：DSAI库源码解析10月：VKDoc11月：iBooker12月：杂项25.1~2月：GeekDoc25.3月之后：题库或者问答没错，为了博客能够持续更新，所有翻译结束后我们将搜集考试和竞赛题库，整理后发不......
Scratch作品-巴黎2024奥运会
《Scratch作品-巴黎2024奥运会》是一款以巴黎2024年奥运会为主题的互动作品，专为儿童和青少年设计。通过Scratch编程语言，这个作品生动地再现了奥运会的精彩瞬间，结合了动画、声音和互动元素，让用户仿佛置身于巴黎的奥运赛场。玩家可以参与各种虚拟的奥运项目，学习奥运精神，了解各国......
2024年第三届钉钉杯大学生大数据挑战赛初赛题目初赛B：医疗门诊患者及用药数据案例分析
（着重更新B题，A题只更新一部分）持续更新中。。2024年第三届钉钉杯大学生大数据挑战赛初赛题目初赛B：医疗门诊患者及用药数据案例分析一、问题背景:智慧医疗的出现，主要是因为传统医疗存在管理系统的不完善、医疗成本高、渠道少、覆盖面低等问题，因此需要建立......
2024年第二届国际高校数学建模竞赛 A题:金字塔石块的运输 Chatgpt-4 详细思路和代码
目录问题一思路代码问题二思路代码优化数学建模问题三思路代码参数敏感性分析方法问题四思路代码最优运输模型建立实施建议问题一思路代码问题1:建立数学模型，收集相关数据，以最大的赫夫金字塔为例，计算在给定的运输车辆数量和载重量下，完成石料运输任务所需的最小......
2024年第二届国际高校数学建模竞赛 B题:太空迁移计划与策略 Chatgpt-4 详细思路和代码
目录问题一问题分析和建模模型建立算法设计Python代码实现解释代码实现问题二问题分析和建模模型建立算法设计Python代码实现解释代码实现问题三问题四问题2：重新考虑资源获取的工作分配问题问题3：重新考虑资源分配的优化问题总结问题一问题1:假设每艘飞......
吃水果-小红书2024笔试(codefun2000)
题目链接吃水果-小红书2024笔试(codefun2000)题目内容在一个遥远的星球上，这颗星球上的果树非常奇特，同一条直线上的果树只会长出不同种类的水果。有一天塔子哥乘飞船来到了这里，由于他的食物不多了，于是他决定在这颗星球上进行补给。他发现了一个n棵果树长成的直线，其中第......
【机械设备故障诊断】一种用于变速条件下铁路车轮踏面擦伤检测的两级自适应调频模态分
......
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现
......
【机械设备故障诊断】一种用于变速条件下铁路车轮踏面擦伤检测的两级自适应调频模态分
......

ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

相关文章

赞助商

阅读排行