首页 > 其他分享 >My CVPR Learning-Feedback

My CVPR Learning-Feedback

时间:2025-01-14 20:31:49浏览次数:3  
标签:Feedback 标记 标签 模型 使用 INR CVPR 图像 My

2024

视觉-语言

 Efficient Vision-Language Pre-training by Cluster Masking

图像包含大量冗余信息,这使得从图像中高效学习表示变得具有挑战性,提出了一种在视觉-语言对比学习过程中对图像块进行聚类掩蔽的策略

论文方法:

  1. 随机聚类掩蔽:在训练过程中,随机选择图像块作为聚类中心,并计算所有块之间的成对距离,形成聚类。在距离阈值内的所有块被视为一个聚类,并被整体掩蔽。

  2. 使用原始RGB值:通过使用图像块的原始RGB值作为特征表示来进行聚类,这种方法简单且避免了额外的计算复杂性。

  3. 自适应层:为了提高聚类形成的准确性,引入了一个自适应层来细化距离矩阵。

  4. 处理批量输入:为了确保批量输入的一致性,论文提出了一个最小掩蔽比例阈值,以保证不同图像的掩蔽比例一致。

  5. 对比视觉-语言预训练:基于CLIP等对比学习的方法,通过对称的InfoNCE损失函数来对齐匹配的文本-图像对的嵌入,并分离不匹配的对。

  6. 上下文预测:通过掩蔽聚类,模型被迫仅从上下文预测缺失的视觉结构的单词,这提供了额外的学习信号。

  7. 特征嵌入的集成:在计算相似性分数时,将纯RGB值和来自变换器的嵌入层特征结合起来,通过加权和的方式,其中权重参数在训练过程中从0线性增加到1。

Label Propagation for Zero-shot Classification with Vision-Language Models

解决的问题是,在进行零样本分类时,如何有效地利用未标记数据来提升基于视觉-语言模型( VLMs)的分类性能

相关研究:

  1. 改进的距离度量:通过设计更好的距离度量方法来改善图像和文本表示之间的相似度估计。例如,CALIP方法使用无参数的注意力机制和局部图像表示来提高类到图像相似度的估计;CLIP-DN通过与对比预训练期间使用的相似度对齐来改善测试时的相似度估计。

  2. 使用大型语言模型改进文本提示:而不是使用手工制作的提示,利用大型语言模型(LLMs)生成更丰富的文本提示。例如,VisDesc和CuPL查询LLMs来生成所有类别的多样化描述;WaffleCLIP在此基础上分析生成提示的重要性。

  3. 使用合成数据:一些方法表明,使用合成数据对零样本分类有益。例如,CLIP+SYN使用基于稳定扩散的模型生成合成图像,并用它们来训练线性分类器。

  4. 利用外部数据集:除了使用合成数据,SuS-X提出了一种方法,它使用大量未标记图像数据集(如LAION-5B),通过零样本方法生成伪标签,并将它们合并到非参数分类器中。

  5. 利用目标分布中的未标记图像:一些研究提出在目标分布的未标记数据集上操作,主要通过预测未标记实例的伪标签,然后用于进一步处理。例如,UPL优化基于伪标签的可学习文本提示;SVL-Adapter首先在未标记数据上训练自监督模型,然后训练适配器模块以使其输出与伪标签对齐。

  6. 并行工作:InMaP是一种并行工作,它使用伪标签更新类表示,使它们更接近图像表示。这与ZLaP的方法相辅相成,ZLaP通过捕捉所有未标记示例之间的交互来利用邻近图和标签传播。

论文方法:

  1. 图结构的构建:首先,论文利用未标记数据的固有结构,通过构建一个邻近图,将数据点(图像和文本特征)表示为图中的节点。

  2. 标签传播的定制:针对视觉-语言模型(VLMs)和包含文本及图像特征的图,论文定制了标签传播算法。这包括对双模态(bi-modal)特性的适当处理,以确保算法能够有效地在不同类型的节点间传播标签。

  3. 跨模态的邻居搜索:为了解决图像和文本特征之间存在的模态差异,论文提出了分别进行图像到图像和图像到文本的最近邻搜索,而不是使用传统的最近邻搜索。

  4. 相似性加权:使用幂函数对跨模态的相似性进行加权,以平衡图像-图像和图像-文本在图中的连接强度。

  5. 高效的方法:论文提出了一种高效的标签传播方法,特别是针对归纳推理(inductive inference)的情况。这包括使用对偶解(dual solution)和稀疏化步骤来提高测试时的效率。

  6. 非参数方法:ZLaP是一种非参数方法,不需要访问VLM模型权重,甚至可以通过API以黑盒模型的形式使用,来提升现有模型的零样本性能。

3D重建

MicroDiffusion: Implicit Representation-Guided Diffusion for 3D Reconstruction from Limited 2D Microscopy Projections

解决的问题是如何从快速获得的、缺乏深度信息的2D投影中,恢复出高质量的3D体积

论文方法:

  1. 隐式神经表示(INR)预训练:首先使用INR模型将2D投影转换为初步的3D体积输出,建立全局结构。这一步通过最小化重建误差来优化INR模型。

  2. 隐式表示引导的扩散:利用预训练的INR作为全局先验,指导扩散模型的生成过程。通过在INR输出和噪声输入之间进行线性插值,丰富扩散过程的3D结构信息,增强细节并减少局部2D图像中的噪声。

  3. 分类器自由引导:在MicroDiffusion中,使用2D投影和3D坐标作为条件信息,引导扩散模型的输出。这种引导方式允许模型在生成过程中考虑到3D空间信息和内容信息。

  4. INR先验整合:将INR输出作为先验知识整合到扩散过程中。通过将INR的输出与噪声图像进行线性插值,使扩散模型能够直接利用INR学习到的结构信息。

  5. 训练和生成过程:MicroDiffusion采用条件U-Net进行训练,该网络在每个ResNet块的输出中加入时间条件和条件特征。在生成过程中,模型通过迭代去噪来实现高质量的输出。

目标检测

Sparse Semi-DETR: Sparse Learnable Queries for Semi-Supervised Object Detection

解决基于DETR的半监督目标检测(SSOD)框架中存在的一些限制,特别是与目标查询质量相关的挑战

论文指出了以下几个问题:

  1. 不准确的伪标签生成:DETR-based SSOD中的一对一分配策略会产生不准确的伪标签,这会影响模型的学习效率。

  2. 重叠预测:一对多分配策略会导致预测结果重叠,这会降低模型性能,尤其是在检测小的或部分遮挡的对象时。

  3. 小目标和遮挡对象的检测性能差:现有的DETR-based SSOD方法在检测小目标或遮挡对象方面表现不佳,因为它们没有使用多尺度特征,如特征金字塔网络(FPN),这在基于CNN的SSOD方法中对识别小目标至关重要。

论文方法:

  1. 查询细化模块(Query Refinement Module)

    • 利用来自backbone的低级特征和从弱增强图像直接提取的高级别特征。

    • 通过融合这些特征来提高小目标和部分遮挡目标的检测能力。

    • 使用注意力机制来聚合特征,生成高质量的精炼特征。

  2. 可靠伪标签过滤模块(Reliable Pseudo-Label Filtering Module)

    • 选择性地过滤出高质量的伪标签,提高检测的准确性和一致性。

    • 通过使用增强的真值来识别和提取可靠的伪标签。

  3. 半监督学习方法

    • 利用标记数据(Dl)和未标记数据(Du)进行训练。

    • 学生网络使用标记数据进行训练,采用监督损失。

    • 教师网络使用未标记数据生成伪标签。

  4. 编码器-解码器架构

    • 学生和教师网络共享编码器特征,但各自独立进行解码。
  5. 注意力机制和查询匹配策略

    • 注意力机制用于聚合特征,并通过查询匹配策略过滤不相关的查询。
  6. 双阶段训练策略

    • 初始阶段使用一对多的分配策略来提高标签质量,然后转换为一对一分配策略以避免NMS。

姿态估计

Normalizing Flows on the Product Space of SO(3) Manifolds for Probabilistic Human Pose Modeling

解决的问题是如何在概率模型中有效地表示和学习高维旋转流形(特别是SO(3)流形)上的概率分布

标签:Feedback,标记,标签,模型,使用,INR,CVPR,图像,My
From: https://blog.csdn.net/m0_73202283/article/details/145142856

相关文章

  • Mysql 高可用(MHA)-读写分离(Atlas)
    1.搭建主从复制(一主两从)1.1准备环境1主库:10.0.0.51/db012从库:10.0.0.52/db02,10.0.0.53/db031.2 清理环境1systemctlstopmysqld2rm-rf/data/mysql_3306/*3rm-rf/binlog/4mkdir/binlog/56创建相关目录与授权7主库操作:开启binlog和G......
  • mysqlworkbench导入csv文件方法2(代码版)
    方法二:缺点--需要写代码,步骤稍多;优点--数据几秒内就可导完,以下是我实际工作场景步骤一:建表:步骤二:查看本地文件导入权限目录步骤三:将csv文件移到C:/ProgramData/MySQL/MySQLServer8.0/Uploads/此目录,并转为utf8,cmd可实现powershell-Command"(Get-Content-Path'D:/工......
  • 前端必知必会-Node.js 连接MySQL 插入数据
    文章目录Node.js连接MySQL插入数据插入表插入多条记录结果对象获取插入的ID总结Node.js连接MySQL插入数据插入表要填充MySQL中的表,请使用“INSERTINTO”语句。示例获取您自己的Node.js服务器在“customers”表中插入一条记录:varmysql=require('my......
  • 前端必知必会-Node.js连接MySQL 查询数据
    文章目录Node.js连接MySQL查询数据从表中查询数据选择列结果对象Fields对象总结Node.js连接MySQL查询数据从表中查询数据要从MySQL中的表中查询数据,请使用“SELECT”语句。示例获取您自己的Node.js服务器从“customers”表中查询所有记录,并显示结果对象:......
  • MySQLworkbench导入csv文件步骤方法一
    方法一:优点--无需写代码;缺点--对于数据量较大的,导入很费时间,1000行大概需要三小时才能导完......
  • MySQL事务
    事务的ACID特性Atomic(原子性)所有语句作为一个单元全部成功执行或全部取消,不能出现中间状态。Consistent(一致性)如果数据库在事务开始时处于一致状态,则在执行该事务期间将保留一致状态。Isolated(隔离性)事务之间不相互影响。Durable(持久性)事务成功完成后,所做的所有更改都......
  • MyBatis-Plus--lombok的使用
    1.Lombok的简介官方介绍:ProjectLombokisajavalibrarythatautomaticallyplugsintoyoureditorandbuildtools,spicingupyourjava.Neverwriteanothergetterorequalsmethodagain,withoneannotationyourclasshasafullyfeaturedbuilder,Autom......
  • 如何在宝塔面板中修改phpMyAdmin数据库管理端口?
    宝塔面板为了安全考虑,屏蔽了phpMyAdmin默认管理端口888的访问。为了避免数据泄露或更大的损失,您可以通过在宝塔面板中修改端口号来解决这个问题。以下是具体步骤:登录宝塔面板:使用您的管理员账户登录宝塔面板。进入软件商店:在左侧导航栏中点击“软件商店”。找到phpMyAdmin:在已......
  • 如何在宝塔面板中修改 phpMyAdmin 数据库管理端口(默认888)
    phpMyAdmin是一个基于Web的数据库管理工具,允许用户通过浏览器轻松管理和操作MySQL/MariaDB数据库。默认情况下,phpMyAdmin在宝塔面板中的访问端口为888,但出于安全性和其他需求,用户可能需要修改此端口。修改步骤登录宝塔面板使用管理员账户登录到宝塔面板的管理界面。......
  • 如何在宝塔面板中修改 phpMyAdmin 数据库管理端口(默认8888)的方法
    当您希望提高服务器的安全性或避免端口冲突时,修改phpMyAdmin的默认访问端口是一个明智的选择。以下是详细的步骤和注意事项,确保您能够顺利更改端口号,并保证phpMyAdmin的正常运行。修改步骤:登录宝塔面板:使用您的管理员账户登录到宝塔面板。进入软件商店:在左侧导航......