GLIP

2024-10-24Grounded Language-Image Pre-training
论文《GLIP:GroundedLanguage-ImagePre-Training》提出了一种新的基于语言和图像的预训练模型，旨在学习语义丰富、语言感知的视觉表示。其核心思想是统一对象检测和短语定位两种任务，从而提升模型在视觉和语言理解任务上的表现。以下是这篇论文的主要内容总结：任务介绍传