网站首页
编程语言
数据库
系统相关
其他分享
编程问答
LMM
2024-06-08
GLaMM : Pixel Grounding Large Multimodal Model
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract大型多模态模型(LMM)将大语言模型扩展到视觉领域。最初的LMM使用整体图像和文本提示词来生成无定位的文本响应。最近,区域级LMM已被用于生成视觉定位响应。然而,它们仅限于一次仅引用单个目标类别,要求用户指定