使用Blip的预训练好的imageEncoder并替换其textDecoder

时间：2024-09-07 15:54:15浏览次数：13

标签：transformers blip textDecoder text batch imageEncoder Blip import model

from transformers import BlipProcessor, BlipTextConfig
from transformers.models.blip.modeling_blip_text import BlipTextLMHeadModel
from transformers import AutoTokenizer


model = BlipForConditionalGeneration.from_pretrained("huggingface.co/Salesforce/blip-image-captioning-base")

text_config = BlipTextConfig()
model.text_decoder = BlipTextLMHeadModel(text_config)

实际训练的时候就可以用BERT的tokenizer处理encode和decode

bertTokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")

output_batch = model.generate(pixel_values=pixel_input_batch)      
                      
for i in range(0, batch_size):
    caption = bertTokenizer.decode(output_batch[i], skip_special_tokens=True)
    print(caption)

标签：transformers,blip,textDecoder,text,batch,imageEncoder,Blip,import,model
From： https://blog.51cto.com/guotong1988/11945179

训练BlipForConditionalGeneration
fromtransformersimportBlipForConditionalGeneration,BlipProcessor,AutoTokenizer,AdamWfromPILimportImagefromdatasetsimportload_datasetprocessor=BlipProcessor.from_pretrained("huggingface.co/Salesforce/blip-image-captioning-base")......
NVIDIA 系列之使用生成式 AI 增强 ROS2 机器人技术：使用 BLIP 和 Isaac Sim 进行实时
简介在快速发展的机器人领域，集成先进的AI模型可以显著增强机器人系统的功能。在本博客中，我们将探讨如何在ROS2（机器人操作系统2）环境中利用BLIP（引导语言图像预训练）模型进行实时图像字幕制作，并使用NVIDIAIsaacSim进行模拟。我们将介绍如何实现一个ROS2节点，该节点订......
利用BLIP和BLIP-2进行图像与文本特征提取：如何构建一个多模态搜索引擎
来源网址：https://medium.com/@enrico.randellini/image-and-text-features-extraction-with-blip-and-blip-2-how-to-build-a-multimodal-search-engine-a4ceabf51fbe结合ViT和LLM的力量进行图像-文本检索任务引言图像与语言看似属于两个不同的领域，以及与之相关的常见问题。......
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and
Motivation&Abs端到端大规模视觉语言预训练的开销极大。为此，本文提出了BLIP2，利用现成的冻住的imageencoder以及LLM引导视觉语言预训练。模态差距：通过两阶段训练的轻量级的QueryTransformer（Q-Former）弥补。第一阶段：从冻结的imageencoder引导VL学习；第二阶段：从冻结的LLM引导视......
DA-CLIP关于使用BLIP生成数据集的代码注释
背景：BLIP:DA-CLIP需要的目标：为了在混合的退化数据集上训练DA-CLIP，作者使用引导式视觉语言框架BLIP为所有HQ图像生成描述。从HQ图像生成的描述是准确的，不传递退化信息。然后，我们可以直接将这些干净的标题、LQ图像和相应的退化类型结合起来，构建图像-文本-退化类型......
多模态-BLIP
BLIP:BootstrappingLanguage-ImagePre-trainingforUnifiedVision-LanguageUnderstandingandGeneratioPaper模型参数量训练数据量数据集来源BLIP224M-361M14M-129MCOCO,VisualGenome,Conceptual12M,SBUcaptionLAION-115M结构结构如Fig.2所示......
blip2代码解析
请你作为一个代码翻译解释生成器，下面我会发送一个github链接给你，请你详细解析与介绍这个链接下代码好的，请发送链接。https://github.com/huggingface/transformers/blob/main/src/transformers/models/blip_2/这是HuggingFace开发的transformers库中的一个模型:“BLiP-2”。......
李沐多模态串讲视频总结 ALBEF VLMo BLIP CoCa BEITv3 模型简要介绍
开场多模态串讲的上篇是比较传统的多模态任务多模态最后的模态交互很重要传统的缺点是都用了预训练的目标检测器，训练和部署都很困难。ViLT把预训练的目标检......
ALBEF -> BLIP -> BLIP-2
因果关系的self-attention，拥有前半句，生成后半句解决了生成任务，如何解决噪声数据？BLIP2查询和当前这个文本最相关的图像信息是什么，同时把不想关的文本信息丢掉，目标......
使用 BLIP-2 零样本“图生文”
本文将介绍来自Salesforce研究院的BLIP-2模型，它支持一整套最先进的视觉语言模型，且已集成入......

使用Blip的预训练好的imageEncoder并替换其textDecoder

相关文章

赞助商

阅读排行