blip2

2024-10-21LLM大模型: blip2多模态大模型原理
截止目前，图片检索领域最出名的应该是openAI的clip了，分别用bert和vit对text和image做encoder，然后让配对的embedding接近，不配对的embedding拉远，通过这种方法达到text匹配（检索）image的目的！但这种方式只能检索，没法生成text啊（比如对image做适当的description），咋整了？总结一下，单存的
2024-09-24为什么多模态大语言模型最近用BLIP2中Q-Former结构的变少了？
前言本篇介绍为什么多模态大语言模型（MLLM）最近的工作中用BLIP2中Q-Former结构的变少了？简单来说，相较于MLP的方案，即LLaVA-1.5，BLIP-2中的Q-Former模型在参数量上更为庞大，其收敛过程也相对缓慢。在同等条件下，Q-Former的性能并未达到LLaVA-1.5所展现出的卓越水平。值得注意的是，即使在数据