2024年11月学习月报
SegEarth-OV
SegEarth-OV是面向遥感图像的开放词汇语义分割模型。SegEarth-OV的模型架构为CLIP,并且采用SimFeatUp作为上采样器。由于FeatUp中的上采样器和下采样器都是可学习的,所以难以保证HR特征完整。于是在SimFeatUp中引入了一个额外的图片重建损失来约束HR特征。通过添加一个CRN(内容保留网络)来重建图片。用时在patch中减去了'[cls]'以减轻全局误差。
PromptKD
主要思想
Reuse教师模型的Text Feature,只训练学生模型的Image Encoder。将教师模型产生的对应类别的text feaure保存下来,再与学生模型的Image Feature相乘得到Logits。
采用离散的可学习Prompt:{v1,v2,v3,v4,...,ci},提高正确率。
解决的问题
- 节省计算量,避免Text Feature的重复计算。
- 解决数据量限制问题,可以用大量的无标签的数据来训练学生模型。
RAR
方法
检索器
使用 CLIP 模型提取图像和文本的多模态嵌入。构建一个外部记忆库,将类别的嵌入存储在显式内存中。输入图像时,检索器从记忆库中提取与输入图像最相似的top-k类别。
排序器
使用 MLLM(如 LLaVa 或 GPT4-Vision)对检索的类别进行重新排序。MLLM通过上下文提示(Prompt)结合内置知识,对类别进行语义级别的细粒度分析,生成最终预测结果。
效果
RAR 方法在细粒度分类、少样本学习和零样本检测任务上实现了显著的性能提升,同时保持高效和通用性,为多模态视觉识别任务提供了更强的工具。
LSeg(多模态语义分割模型)
方法
将图片([W,H,C]),类别文本([N,C])进行编码,在通道维度计算余弦相似度,得到文本引导后的图片特征([W,H,N]),最后将特征图恢复到原图大小。
GroupViT(多模态语义分割模型)
Idea
引入了可学习的gruop tokens,与图片tokens一起进行注意力计算,学习图片特征,与文本特征进行对比学习。通过上面对比学习后,通过求解类别文本和图像区域的相似度,为特定区域分配其相似度最高的类别。
GLIP
方法(多模态目标检测模型)
通过RNP(区域候选网络)获取候选框,候选框内的图片经过图片编码器处理提取特征。损失由两部分组成,一部分是分类损失,类似CLIP,与prompt文本特征进行对比损失计算,prompt由多个类别phrase组成。另一部分是框的回归损失。
深度融合
通过多模态多头注意力机制对文本和图片特征进行多层的深度融合,使模型学习到更深层次的语义信息,并在下游任务上具有更好的应用。
标签:模态,2024.11,模型,学习,类别,文本,图片 From: https://www.cnblogs.com/cyb66666/p/18579710