InstructBLIP

2024-11-24多模态大模型（4）--InstructBLIP
BLIP-2通过冻结的指令调优LLM以理解视觉输入，展示了在图像到文本生成中遵循指令的初步能力。然而，由于额外的视觉输入由于输入分布和任务多样性，构建通用视觉语言模型面临很大的挑战。因而，在视觉领域，指令调优技术仍未被充分探索。InstructBLIP（《InstructBLIP:TowardsGeneral-