• 2024-03-21DA-CLIP关于使用BLIP生成数据集的代码注释
    背景:BLIP:DA-CLIP需要的目标: 为了在混合的退化数据集上训练DA-CLIP,作者使用引导式视觉语言框架BLIP为所有HQ图像生成描述。从HQ图像生成的描述是准确的,不传递退化信息。 然后,我们可以直接将这些干净的标题、LQ图像和相应的退化类型结合起来,构建图像-文本-退化类型
  • 2023-11-29LLM模型参数助力多模态大模型高效训练
    随着人工智能技术的快速发展,多模态大模型在各种应用领域展现出了巨大的潜力。然而,其训练过程存在着计算资源消耗大、训练时间漫长等问题,这限制了其在实际场景中的应用。为了解决这些问题,salesforce提出了一个新的训练方法,即基于冻结视觉编码器和LLM模型参数的高效训练多模态大模型(B
  • 2023-11-25多模态-BLIP
    BLIP:BootstrappingLanguage-ImagePre-trainingforUnifiedVision-LanguageUnderstandingandGeneratioPaper模型参数量训练数据量数据集来源BLIP224M-361M14M-129MCOCO,VisualGenome,Conceptual12M,SBUcaptionLAION-115M结构结构如Fig.2所示
  • 2023-05-15blip2代码解析
    请你作为一个代码翻译解释生成器,下面我会发送一个github链接给你,请你详细解析与介绍这个链接下代码好的,请发送链接。https://github.com/huggingface/transformers/blob/main/src/transformers/models/blip_2/这是HuggingFace开发的transformers库中的一个模型:“BLiP-2”。
  • 2023-03-19李沐多模态串讲视频总结 ALBEF VLMo BLIP CoCa BEITv3 模型简要介绍
    开场多模态串讲的上篇是比较传统的多模态任务多模态最后的模态交互很重要传统的缺点是都用了预训练的目标检测器,训练和部署都很困难。ViLT把预训练的目标检
  • 2023-03-18ALBEF -> BLIP -> BLIP-2
    因果关系的self-attention,拥有前半句,生成后半句解决了生成任务,如何解决噪声数据?BLIP2查询和当前这个文本最相关的图像信息是什么,同时把不想关的文本信息丢掉,目标
  • 2023-03-01使用 BLIP-2 零样本“图生文”
    本文将介绍来自Salesforce研究院的BLIP-2模型,它支持一整套最先进的视觉语言模型,且已集成入