2024
视觉-语言
Efficient Vision-Language Pre-training by Cluster Masking
图像包含大量冗余信息,这使得从图像中高效学习表示变得具有挑战性,提出了一种在视觉-语言对比学习过程中对图像块进行聚类掩蔽的策略
论文方法:
随机聚类掩蔽:在训练过程中,随机选择图像块作为聚类中心,并计算所有块之间的成对距离,形成聚类。在距离阈值内的所有块被视为一个聚类,并被整体掩蔽。
使用原始RGB值:通过使用图像块的原始RGB值作为特征表示来进行聚类,这种方法简单且避免了额外的计算复杂性。
自适应层:为了提高聚类形成的准确性,引入了一个自适应层来细化距离矩阵。
处理批量输入:为了确保批量输入的一致性,论文提出了一个最小掩蔽比例阈值,以保证不同图像的掩蔽比例一致。
对比视觉-语言预训练:基于CLIP等对比学习的方法,通过对称的InfoNCE损失函数来对齐匹配的文本-图像对的嵌入,并分离不匹配的对。
上下文预测:通过掩蔽聚类,模型被迫仅从上下文预测缺失的视觉结构的单词,这提供了额外的学习信号。
特征嵌入的集成:在计算相似性分数时,将纯RGB值和来自变换器的嵌入层特征结合起来,通过加权和的方式,其中权重参数在训练过程中从0线性增加到1。
Label Propagation for Zero-shot Classification with Vision-Language Models
解决的问题是,在进行零样本分类时,如何有效地利用未标记数据来提升基于视觉-语言模型( VLMs)的分类性能
相关研究:
改进的距离度量:通过设计更好的距离度量方法来改善图像和文本表示之间的相似度估计。例如,CALIP方法使用无参数的注意力机制和局部图像表示来提高类到图像相似度的估计;CLIP-DN通过与对比预训练期间使用的相似度对齐来改善测试时的相似度估计。
使用大型语言模型改进文本提示:而不是使用手工制作的提示,利用大型语言模型(LLMs)生成更丰富的文本提示。例如,VisDesc和CuPL查询LLMs来生成所有类别的多样化描述;WaffleCLIP在此基础上分析生成提示的重要性。
使用合成数据:一些方法表明,使用合成数据对零样本分类有益。例如,CLIP+SYN使用基于稳定扩散的模型生成合成图像,并用它们来训练线性分类器。
利用外部数据集:除了使用合成数据,SuS-X提出了一种方法,它使用大量未标记图像数据集(如LAION-5B),通过零样本方法生成伪标签,并将它们合并到非参数分类器中。
利用目标分布中的未标记图像:一些研究提出在目标分布的未标记数据集上操作,主要通过预测未标记实例的伪标签,然后用于进一步处理。例如,UPL优化基于伪标签的可学习文本提示;SVL-Adapter首先在未标记数据上训练自监督模型,然后训练适配器模块以使其输出与伪标签对齐。
并行工作:InMaP是一种并行工作,它使用伪标签更新类表示,使它们更接近图像表示。这与ZLaP的方法相辅相成,ZLaP通过捕捉所有未标记示例之间的交互来利用邻近图和标签传播。
论文方法:
图结构的构建:首先,论文利用未标记数据的固有结构,通过构建一个邻近图,将数据点(图像和文本特征)表示为图中的节点。
标签传播的定制:针对视觉-语言模型(VLMs)和包含文本及图像特征的图,论文定制了标签传播算法。这包括对双模态(bi-modal)特性的适当处理,以确保算法能够有效地在不同类型的节点间传播标签。
跨模态的邻居搜索:为了解决图像和文本特征之间存在的模态差异,论文提出了分别进行图像到图像和图像到文本的最近邻搜索,而不是使用传统的最近邻搜索。
相似性加权:使用幂函数对跨模态的相似性进行加权,以平衡图像-图像和图像-文本在图中的连接强度。
高效的方法:论文提出了一种高效的标签传播方法,特别是针对归纳推理(inductive inference)的情况。这包括使用对偶解(dual solution)和稀疏化步骤来提高测试时的效率。
非参数方法:ZLaP是一种非参数方法,不需要访问VLM模型权重,甚至可以通过API以黑盒模型的形式使用,来提升现有模型的零样本性能。
3D重建
解决的问题是如何从快速获得的、缺乏深度信息的2D投影中,恢复出高质量的3D体积
论文方法:
隐式神经表示(INR)预训练:首先使用INR模型将2D投影转换为初步的3D体积输出,建立全局结构。这一步通过最小化重建误差来优化INR模型。
隐式表示引导的扩散:利用预训练的INR作为全局先验,指导扩散模型的生成过程。通过在INR输出和噪声输入之间进行线性插值,丰富扩散过程的3D结构信息,增强细节并减少局部2D图像中的噪声。
分类器自由引导:在MicroDiffusion中,使用2D投影和3D坐标作为条件信息,引导扩散模型的输出。这种引导方式允许模型在生成过程中考虑到3D空间信息和内容信息。
INR先验整合:将INR输出作为先验知识整合到扩散过程中。通过将INR的输出与噪声图像进行线性插值,使扩散模型能够直接利用INR学习到的结构信息。
训练和生成过程:MicroDiffusion采用条件U-Net进行训练,该网络在每个ResNet块的输出中加入时间条件和条件特征。在生成过程中,模型通过迭代去噪来实现高质量的输出。
目标检测
Sparse Semi-DETR: Sparse Learnable Queries for Semi-Supervised Object Detection
解决基于DETR的半监督目标检测(SSOD)框架中存在的一些限制,特别是与目标查询质量相关的挑战
论文指出了以下几个问题:
不准确的伪标签生成:DETR-based SSOD中的一对一分配策略会产生不准确的伪标签,这会影响模型的学习效率。
重叠预测:一对多分配策略会导致预测结果重叠,这会降低模型性能,尤其是在检测小的或部分遮挡的对象时。
小目标和遮挡对象的检测性能差:现有的DETR-based SSOD方法在检测小目标或遮挡对象方面表现不佳,因为它们没有使用多尺度特征,如特征金字塔网络(FPN),这在基于CNN的SSOD方法中对识别小目标至关重要。
论文方法:
查询细化模块(Query Refinement Module):
利用来自backbone的低级特征和从弱增强图像直接提取的高级别特征。
通过融合这些特征来提高小目标和部分遮挡目标的检测能力。
使用注意力机制来聚合特征,生成高质量的精炼特征。
可靠伪标签过滤模块(Reliable Pseudo-Label Filtering Module):
选择性地过滤出高质量的伪标签,提高检测的准确性和一致性。
通过使用增强的真值来识别和提取可靠的伪标签。
半监督学习方法:
利用标记数据(Dl)和未标记数据(Du)进行训练。
学生网络使用标记数据进行训练,采用监督损失。
教师网络使用未标记数据生成伪标签。
编码器-解码器架构:
- 学生和教师网络共享编码器特征,但各自独立进行解码。
注意力机制和查询匹配策略:
- 注意力机制用于聚合特征,并通过查询匹配策略过滤不相关的查询。
双阶段训练策略:
- 初始阶段使用一对多的分配策略来提高标签质量,然后转换为一对一分配策略以避免NMS。
姿态估计
Normalizing Flows on the Product Space of SO(3) Manifolds for Probabilistic Human Pose Modeling
标签:Feedback,标记,标签,模型,使用,INR,CVPR,图像,My From: https://blog.csdn.net/m0_73202283/article/details/145142856解决的问题是如何在概率模型中有效地表示和学习高维旋转流形(特别是SO(3)流形)上的概率分布