首页 > 其他分享 >2024.11多模态学习月报

2024.11多模态学习月报

时间:2024-12-01 13:12:05浏览次数:5  
标签:模态 2024.11 模型 学习 类别 文本 图片

2024年11月学习月报

SegEarth-OV

SegEarth-OV是面向遥感图像的开放词汇语义分割模型。SegEarth-OV的模型架构为CLIP,并且采用SimFeatUp作为上采样器。由于FeatUp中的上采样器和下采样器都是可学习的,所以难以保证HR特征完整。于是在SimFeatUp中引入了一个额外的图片重建损失来约束HR特征。通过添加一个CRN(内容保留网络)来重建图片。用时在patch中减去了'[cls]'以减轻全局误差。

PromptKD

主要思想

Reuse教师模型的Text Feature,只训练学生模型的Image Encoder。将教师模型产生的对应类别的text feaure保存下来,再与学生模型的Image Feature相乘得到Logits。
采用离散的可学习Prompt:{v1,v2,v3,v4,...,ci},提高正确率。

解决的问题

  1. 节省计算量,避免Text Feature的重复计算。
  2. 解决数据量限制问题,可以用大量的无标签的数据来训练学生模型。

RAR

方法

检索器

使用 CLIP 模型提取图像和文本的多模态嵌入。构建一个外部记忆库,将类别的嵌入存储在显式内存中。输入图像时,检索器从记忆库中提取与输入图像最相似的top-k类别。

排序器

使用 MLLM(如 LLaVa 或 GPT4-Vision)对检索的类别进行重新排序。MLLM通过上下文提示(Prompt)结合内置知识,对类别进行语义级别的细粒度分析,生成最终预测结果。

效果

RAR 方法在细粒度分类、少样本学习和零样本检测任务上实现了显著的性能提升,同时保持高效和通用性,为多模态视觉识别任务提供了更强的工具。

LSeg(多模态语义分割模型)

方法

将图片([W,H,C]),类别文本([N,C])进行编码,在通道维度计算余弦相似度,得到文本引导后的图片特征([W,H,N]),最后将特征图恢复到原图大小。

GroupViT(多模态语义分割模型)

Idea

引入了可学习的gruop tokens,与图片tokens一起进行注意力计算,学习图片特征,与文本特征进行对比学习。通过上面对比学习后,通过求解类别文本和图像区域的相似度,为特定区域分配其相似度最高的类别。

GLIP

方法(多模态目标检测模型)

通过RNP(区域候选网络)获取候选框,候选框内的图片经过图片编码器处理提取特征。损失由两部分组成,一部分是分类损失,类似CLIP,与prompt文本特征进行对比损失计算,prompt由多个类别phrase组成。另一部分是框的回归损失。

深度融合

通过多模态多头注意力机制对文本和图片特征进行多层的深度融合,使模型学习到更深层次的语义信息,并在下游任务上具有更好的应用。

标签:模态,2024.11,模型,学习,类别,文本,图片
From: https://www.cnblogs.com/cyb66666/p/18579710

相关文章

  • 2024-2025-1 20241316 《计算机基础与程序设计》第十周学习总结
    2024-2025-120241316《计算机基础与程序设计》第十周学习总结作业信息这个作业属于哪个课程2024-2025-1-计算机基础与程序设计这个作业要求在哪里2024-2025-1计算机基础与程序设计第十周作业这个作业的目标<信息系统、数据库与SQL、人工智能与专家系统、人工神......
  • 2024-2025-1 20241423 《计算机基础与程序设计》第10周学习总结
    作业信息这个作业属于哪个课程[2024-2025-1-计算机基础与程序设计]https://edu.cnblogs.com/campus/besti/2024-2025-1-CFAP这个作业要求在哪里[2024-2025-1计算机基础与程序设计第一周作业]https://edu.cnblogs.com/campus/besti/2024-2025-1-CFAP/homework/13276......
  • 2024-2025-1 20241314 《计算机基础与程序设计》第十周学习总结
    2024-2025-120241314《计算机基础与程序设计》第十周学习总结作业信息这个作业属于哪个课程2024-2025-1-计算机基础与程序设计这个作业要求在哪里2024-2025-1计算机基础与程序设计第十周作业这个作业的目标信息系统数据库与SQL人工智能与专家系统人工神经网......
  • Java小白学习之---接口
    1.什么是接口?接口就是给出一些没有实现的方法,封装到一起,到某个类要使用的时候,在根据具体情况把这些方法写出来2.接口语法interface接口名{//属性//方法(1.抽象方法2默认实现方法3.静态方法)}class类名implements接口{自己属性;自己方法;必须实现的接口的抽象......
  • 2024-2025-1 20241417 《计算机基础与程序设计》第十周学习总结
    2024-2025-120241417《计算机基础与程序设计》第十周学习总结作业信息这个作业属于哪个课程<班级的链接>(如2024-2025-1-计算机基础与程序设计)这个作业要求在哪里<作业要求的链接>2024-2025-1计算机基础与程序设计第十周作业这个作业的目标<信息系统,数据库与SQL,......
  • 2024-2025-1 20241415 《计算机基础与程序设计》第十周学习总结
    学期(如2024-2025-1)学号(如:20241300)《计算机基础与程序设计》第X周学习总结作业信息这个作业属于哪个课程2024-2025-1-计算机基础与程序设计这个作业要求在哪里2024-2025-1计算机基础与程序设计第十周作业这个作业的目标信息系统,数据库与SQL,人工智能与专家系统,人......
  • 泷羽sec-shell(6)if条件判断与for循环结构 学习笔记
     声明!学习视频来自B站up主**泷羽sec**有兴趣的师傅可以关注一下,如涉及侵权马上删除文章,笔记只是方便各位师傅的学习和探讨,文章所提到的网站以及内容,只做学习交流,其他均与本人以及泷羽sec团队无关,切勿触碰法律底线,否则后果自负!!!!有兴趣的小伙伴可以点击下面连接进入b站主页[B......
  • EfficientNet-resDDSC:一种集成残差块和扩展卷积的混合深度学习模型推断单细胞数据中的
    中文关键词:单细胞测序scRNA-seq,基因调控关系,基因调控网络,调控因果关系,深度学习,机器学习 中文摘要:基因调控网络(GRNs)揭示了生物体内基因之间的复杂相互作用,这对于理解生命系统的运作至关重要。生物技术的快速发展,特别是单细胞RNA测序(scRNA-seq),产生了大量的scRNA-eq数据,可以在......
  • 2024-2025-1 20241322 《计算机基础与程序设计》第十周学习总结
    2024-2025-120241322《计算机基础与程序设计》第十周学习总结作业信息这个作业属于哪个课程https://edu.cnblogs.com/campus/besti/2024-2025-1-CFAP这个作业要求在哪里https://www.cnblogs.com/rocedu/p/9577842.html#WEEK10这个作业的目标①信息系统②数据库......
  • # 学期2024-2025-1 学号20241428《计算机基础与程序设计》第10周学习总结
    学期(如2024-2025-1)学号(如:20241300)《计算机基础与程序设计》第X周学习总结作业信息这个作业属于哪个课程<班级的链接>(如2024-2025-1-计算机基础与程序设计)这个作业要求在哪里<作业要求的链接>(如2024-2025-1计算机基础与程序设计第一周作业)这个作业的目标1、信......