对比学习论文综述

时间：2023-03-21 15:33:23浏览次数：69

tag: DL/Contrastive
alias: CV方向比较经典的对比学习论文，截止到2021年12月

学习来源：对比学习论文综述【论文精读】_哔哩哔哩_bilibili

百花齐放

CV双雄

MoCo

改进简单有效并且有很大影响
1. 动量编码器。在后续的SimCLR和BYOL等一直在使用
写作方式 - 自顶向下
1. 讲述了cv和nlp的区别，以及为什么cv的对比学习做的不好
2. cv、nlp、对比学习框架统一的情况下，提出方法

SimCLR

概念简单，容易理解。但是batchsize太大（4096/8192）

image.png|400
正样本：2 负样本：2(N-1)

增加mlp+relu可以在ImageNet上提升将近10个点。本篇论文在fc做非线性变换之后的特征是128维。

normalized temperature-scaled 交叉熵函数

projection head函数 \(g()\) 只有在训练的时候使用，下游任务只使用特征 h

相比较[[InvaSpread]]，贡献：

对比学习需要很强的数据增强技术
在编码器之后增加mlp层，可学习的非线性变换
使用lars优化器去做更大的batchsize并且训练时间更久。

数据增强策略：

image.png|500
最有效的是Crop和Color

非线性层(mlp+relu)：
image.png|500

维度大小没有影响，现在多数工作选择128维
至今没有理论能够证明有效性

MoCo v2

将SimCLR上的技术用到MoCo上面。

改动：

使用MLP层
增加数据增强
训练时候使用 cosine 的 learning rate schedule
训练更长的epoch (200 -> 800)

与SimCLR的比较：
image.png|500

image.png|500

SimCLR v2

小部分讲解模型改进从 v1 -> v2, 大部分篇幅讲如何做半监督学习

模型改进：

更大的模型，无监督的对比学习效果会更好。152-layer ResNet，selective kernels(SK Net)
加深protection head。fc-relu ---> fc-relu-fc-relu. 两层的FC效果更好
使用 MoCo 提出的动量编码器。但是提升不多大概～1%。原因可能是原本的mini-batch已经很大，负样本足够多

SimCLR v1 和 SimCLR v2 只做了分类任务。MoCo 做了很多下游任务

SwAV

用一个视角的特征预测其他视角的特征，这些特征应该是相似的。对比学习 + 聚类

去跟聚类中心对比。ImageNet上大概有3000个聚类中心。

image.png|700

特征：(B, D) prototypes：(D, K)

使用聚类：

3000个聚类中心足够代表所有的负样本。即使MoCo的队列60000张图片也只是近似，不是和所有的负样本做对比。
聚类中心含有明确语意信息。之前随机抽取样本可能还含有正样本。
了解聚类方法可参考一作的 deep cluster, deep cluster two

性能提升关键点：

聚类
multi-crop：关注全局信息和局部信息

其他

cmc2: 适量互信息。infoMin，选择合适的数据增强等

不用负样本

BYOL

负样本是一个约束。正样本是让同一类的物体特征尽可能相似。如果没有负样本则模型会学到一个shortcut：所有特征都一致

SimSam

不需要负样本
不需要大batchsize
不需要动量编码器

image.png|500
stop-gradient操作。

Expectation-Maximization(EM) 操作

Transformer

MoCo v3

标签：论文,SimCLR,综述,样本,学习,聚类,MoCo,对比
From： https://www.cnblogs.com/StarTwinkle/p/17240180.html

论文翻译：2023_THLNet: two-stage heterogeneous lightweight network for monaural sp
论文地址：THLNet:用于单耳语音增强的两级异构轻量级网络代码：https://github.com/dangf15/THLNet引用格式：DangF,HuQ,ZhangP.THLNet:two-stageheterogeneouslight......
论文解读TCPN
一、简要介绍视觉信息提取（VIE）近年来受到了越来越多的关注。现有的方法通常首先将光学字符识别（OCR）结果组织成纯文本，然后利用标记级实体注释作为监督来训练序列标记模型......
应用监控可视化工具Grafana&Kibana对比
在智能化无法做到闭环的全自动风险管理前提下，应用运维系统采集的数据、智能算法分析出的信息需要高效传输到人脑才能发挥价值。高效的人机交互界面可以让机器智能与人脑更紧......
三种javascript数组搜索的效率对比
[b][color=red][size=x-large]结论:内置方法是最快的.[/size][/color][/b]//构造一个数组vararr=[];for(vari=0;i<=1000000;i++){arr.push('abcdefghigk'+i);}varv=......
[CVPR2020] RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clou
大佬的TensorFlow代码：here另一个大佬的Pytorch代码：等我看完代码再贴链接，之前那个不太行keywords高分辨率点云——约\(10^5\)点云语义分割多层次特征在正式开始......
epoll与select、poll的对比
1.用户态将文件描述符传入内核的方式select：创建3个文件描述符集并拷贝到内核中，分别监听读、写、异常动作。这里受到单个进程可以打开的fd数量限制，默认是1024。poll：将......
HTTP 方法与GET 和 POST 方法的对比
HTTP方法与GET 1.常用的HTTP方法浏览器发送请求时采用的方法，和响应无关GET、POST、PUT、DELETE用来定义对于资源才去......
论文阅读笔记《Is Mapping Necessary for Realistic PointGoal Navigation？》
IsMappingNecessaryforRealisticPointGoalNavigation？现实点目标导航是否需要地图？CVPR2022PartseyR,WijmansE,YokoyamaN,etal.IsMappingNecessaryf......
论文解读《KNN-Contrastive Learning for Out-of-Domain Intent Classification》
论文信息论文标题：KNN-ContrastiveLearningforOut-of-DomainIntentClassification论文作者：YunhuaZhou,PeijuLiu,XipengQiu论文来源：ArXiv2021论文地址：download......
winform绘图与前端canvas绘图效率对比
先说结论：前端canas的绘图效率更高。因为项目使用winform的缘故，最近要实现一些波形展示的功能。涉及到绘制，肯定离不开GDI+的内容，但是还有替代的方案吗？当然是有的，可双用Web......