多模态大模型（2）--BLIP

时间：2024-11-15 22:47:17浏览次数：3

大模型如火如荼，研究者们已经不再满足于基本文本的大语言模型（LLM, Large Language Model），AI领域的热点正逐步向多模态转移，具备多模态能力的多模态大型语言模型（MM（Multi-Modal）-LLM）就成了一个备受关注的研究主题。BLIP（Bootstrapping Language-Image Pretraining）是由Salesforce在2022年提出的多模态预训练模型，它旨在统一视觉语言任务的理解与生成能力，并通过对噪声数据的处理来提高模型性能。本文进行简要的介绍：

模型结构

BLIP模型采用了一种编码器-解码器混合架构（Multimodal mixture of Encoder-Decoder, MED），这种架构非常灵活，可以作为单模态编码器、图像引导文本编码器或图像引导文本解码器来使用。MED包括两个单模态编码器（图像编码器和文本编码器），一个以图像为基础的编码器和一个以图像为基础的解码器。
在这里插入图片描述

预训练方法

BLIP通过三种视觉语言目标进行联合训练：

图像文本的对比学习：通过对比学习，BLIP学习图像和文本之间的相似度。
图像文本匹配：BLIP学习匹配图像和相关文本。
图像条件语言建模：BLIP学习基于图像内容生成文本描述。

CapFilt 机制

BLIP引入了一种高效率利用噪声网络数据的方法，称为CapFilt。这个方法包括两个模块：Captioner和Filter。Captioner用于生成文本标注，而Filter用于去除文本噪声。通过这种方式，BLIP提高了数据的质量和数量，从而提高了模型在视觉语言任务上的性能。
在这里插入图片描述

特点

BLIP的创新主要有两个方面：

任务多样性：与CLIP相比，BLIP不仅处理图像和文本的对齐问题，还旨在解决包括图像生成、视觉问答和图像描述等更复杂的任务。
训练方式：BLIP采用了“引导学习”的方式，通过自监督的方式来增强模型对语言和视觉信息的理解。
这些特点使其在处理图像和文本数据方面展现了卓越的性能，成为众多领域解决复杂问题的强大工具。

应用

利益于BLIP和BLIP-2模型在多模态对齐机制的能力，它在多个实际场景有所应用：
● 图像-文本检索：实现图像检索文本或文本检索图像的双向检索功能。
● 视觉问答（VQA）：理解视觉问题（图像语义）并生成回答。
● 图像描述生成：生成对图像的自然语言描述，适用于自动化图片标注、社交媒体内容生成等。
● 多模态生成与交互：BLIP-2通过优化跨模态生成机制，在图像-文本交互中实现了更强的生成效果。

标签：模态,编码器,--,模型,BLIP,图像,文本
From： https://blog.csdn.net/burstone/article/details/143782646

Design Compiler：Topographical Workshop Lab2
相关阅读DesignCompilerhttps://blog.csdn.net/weixin_45791458/category_12738116.html?spm=1001.2014.3001.5482 本文是对Synopsys DesignCompilerTopographical/GraphicalWorkshopLabGuide中Lab2的翻译，Lab文件可以从以下链接获取。SynopsysDesig......
c语言sizeof与strlen的区别详细解析
char*p="abcdef";printf("%d\n",sizeof(p));p是指针变量（地址），地址就是地址，大小就是4/8字节printf("%d\n",sizeof(p+1));p+1是b的地址，还是地址4/8字节printf("%d\n",sizeof(*p));*p是‘a’，sizeof（*p）计算的是字符的大小，是1字节printf("%d\n"......
百度地图、高德地图收藏夹位置信息导出小工具分享
很多人在地图应用中收藏了很多的位置，但是一旦想要更换地图软件时，就会遇到地图软件里面收藏的位置信息没办法导出的问题。经实际使用发现目前高德地图、百度地图都没有提供收藏夹位置导出的功能。看到贴吧、小红书很多网友在咨询如何将百度地图、高德地图中收藏的位置信息导出，网......
c语言——三子棋基础游戏
首先，我们先有整体思路：它的棋盘到底是怎么样子的？它实现的过程是怎么一步一步来的棋盘到底是怎么样子的？大概是这么一个轮廓。实现过程中，我们该如何思考呢？1.我们想到，开始游戏的时候，我们肯定会一个菜单的吧？2.利用菜单选择是否开始游戏3.开始游戏后，我们就开始设计排版棋盘了：1......
博客园众包接单初体验
最近有点闲，早上漫无目的地打开微信，偶然间发现众包群里最后一条聊天记录挂着博客园发的单子，简单浏览了一下，是一个关于解决前端问题的订单，网站是用WordPress搭建的。前端、WordPress、PHP，好家伙，这不正是我的菜嘛！心动则缘起，说干就干，于是乎迅速联系了博客园，沟通过程简单利落，毫不拖泥......
基于特征点模型的人脸和面具拟合的方法研究
目录第一章：引言1.1研究背景1.2研究意义1.3研究目标1.4文章结构第二章：特征点模型与人脸检测2.1人脸检测的选择2.2特征点检测的实现2.3特征点的重要性第三章：面具拟合方法3.1正脸情况的仿射变换3.2正脸仿射变换的代码实现3.3仿射变换的效果分析第四章：侧脸......
路标设置
路标设置题目背景B市和T市之间有一条长长的高速公路，这条公路的某些地方设有路标，但是大家都感觉路标设得太少了，相邻两个路标之间往往隔着相当长的一段距离。为了便于研究这个问题，我们把公路上相邻路标的最大距离定义为该公路的“空旷指数”。题目描述现在政府决定在公路上增......
Android 音频采集 - AudioRecord
一、概述AudioRecord是Android平台比较重要的类，也是Java接口中比较偏底层(平台)的接口，可以通过它从平台的音频输入硬件来获取原始音频PCM数据。它的工作原理是要需要通过应用侧轮询调用read接口来驱动，每调用一次，系统就会从硬件采集到的数据填充一次，至于传递数据的......
2024-2025-1 20241320 《计算机基础与程序设计》第8周学习总结
2024-2025-120241320《计算机基础与程序设计》第8周学习总结作业信息|这个作业属于哪个课程|https://edu.cnblogs.com/campus/besti/2024-2025-1-CFAP|这个作业要求在哪里|https://www.cnblogs.com/rocedu/p/9577842.html#WEEK08|这个作业的目标|功能设计与面向对象设计......
音视频基础能力之 iOS 视频篇（一）：视频采集
涉及硬件的音视频能力，比如采集、渲染、硬件编码、硬件解码，通常是与客户端操作系统强相关的，就算是跨平台的多媒体框架也必须使用平台原生语言的模块来支持这些功能本系列文章将详细讲述移动端音视频的采集、渲染、硬件编码、硬件解码这些涉及硬件的能力该如何实现本文为该系......

多模态大模型（2）--BLIP

模型结构

预训练方法

CapFilt 机制

特点

应用

相关文章

赞助商

阅读排行