首页 > 其他分享 >Simsiam论文阅读笔记

Simsiam论文阅读笔记

时间:2024-03-10 10:45:18浏览次数:24  
标签:Simsiam 编码器 Siamese 梯度 论文 网络 视图 笔记 mathcal

Abstract

Siamese网络已经成为最近各种无监督视觉表示学习模型的共同结构。这些模型最大限度地提高了一个图像的两个增强之间的相似性,在一定的条件下避免崩溃的解。在本文中,我们报告了令人惊讶的经验结果,简单的Siamese网络可以学习有意义的表示,即使不使用以下内容: (i)负样本对,(ii)大批量,(iii)动量编码器。我们的实验表明,对于损失和结构确实存在坍塌解,但停止梯度操作在防止坍塌方面起着至关重要的作用。我们给出了一个关于停止梯度含义的假设,并进一步证明了概念验证实验的验证。

Introduction

Siamese网络是应用于两个或多个输入的权重共享神经网络。它们是比较(包括但不限于“对比”)实体的自然工具。最近的方法将输入定义为一个图像的两个增强,并在不同的条件下最大化相似性。
Siamese网络的一个不希望的平凡解决方案是所有输出“崩溃”到一个常数。目前已经有了几种防止Siamese网络崩溃的一般策略。对比学习,例如,在SimCLR中实例化,排斥不同的图像(负对),同时吸引同一图像的两个视图(正对)。负对排除了来自解空间的常数输出。聚类是避免恒定输出的另一种方法,而SwAV将在线聚类合并到Siamese网络中。除了对比学习和聚类之外,BYOL只依赖于正对,但在使用动量编码器时,它不会崩溃。
在本文中,我们发现了简单的Siamese网络可以惊人地工作,没有上述策略来防止崩溃。我们的模型直接最大化了一个图像的两个视图的相似性,既不使用负对,也不使用动量编码器。它适用于典型的批量大小,并且不依赖于大批量训练。
SimSiam的模型图如下:
pFy8y2F.png

我们的经验表明,坍塌解确实存在,但停止梯度操作对于防止这样的解决方案是至关重要的。停止梯度的重要性表明,应该有一个不同的潜在的优化问题正在被解决。我们假设有两组变量,SimSiam的行为就像在优化每个集合之间交替。我们提供了概念验证实验来验证这一假设。

Method

我们的体系结构从一个图像x中选取两个随机增广的视图x1和x2作为输入。这两个视图由一个主干和一个投影MLP头组成的编码器网络f进行处理。编码器f在这两个视图之间共享权重。预测MLP头,表示为h,转换一个视图的输出并将其与另一个视图匹配。将两个输出向量表示为\(\begin{aligned}p_1&\triangleq h(f(x_1))\end{aligned}\)和\(\begin{aligned}z_2&\triangleq h(f(x_2))\end{aligned}\),我们最小化它们的负余弦相似度:
\(\mathcal{D}(p_{1},z_{2})=-\frac{p_{1}}{\|p_{1}\|_{2}}\cdot\frac{z_{2}}{\|z_{2}\|_{2}},\)
交换输入,我们定义对称的损失为:
\(\mathcal{L}=\frac12\mathcal{D}(p_{1},z_{2})+\frac12\mathcal{D}(p_{2},z_{1}).\)

我们的方法的一个重要组件是停止梯度(stopgre)操作。我们通过修改之前的余弦相似度来实现它:
\(\mathcal{D}(p_1,\text{stopgrad}(z_2)).\)
这意味着z2在这一项中被视为一个常数。类似地,对称损失函数中的形式实现为:
\(\mathcal{L}\overset{}{\operatorname*{=}}\frac12\mathcal{D}(p_1,\text{stopgrad}(z_2))+\frac12\mathcal{D}(p_2,\text{stopgrad}(z_1)).\)

在这里,x2上的编码器在第一项中不接收来自z2的梯度,但在第二项中它接收来自p2的梯度

读的比较简略,只是了解其中的一些方法,具体的证明细节没有看

标签:Simsiam,编码器,Siamese,梯度,论文,网络,视图,笔记,mathcal
From: https://www.cnblogs.com/anewpro-techshare/p/18063819

相关文章

  • Living-Dream 系列笔记 第49期
    T1令\(dp_{i,j}\)表示卖出区间\([i,j]\)能获得的最大价值。显然答案为\(dp_{1,n}\)。因为只能卖\(i\)/\(j\),所以有转移:\[dp_{i,j}=\max(dp_{i+1,j}+v_i\times(n-len+1),dp_{i,j-1}+v_j\times(n-len+1))\]初始:\(dp_{i,i}=v_i\timesn\),其余为\(-\infty\)。co......
  • 【Web】Web 阶段学习笔记
    Web阶段学习笔记目录Web阶段学习笔记一、前端基础(一)HTML与CSS(二)JavaScript入门一、前端基础(一)HTML与CSS1-1HTML快速入门1-2CSS入门与选择器1-3CSS字体与字体样式1-4链接、列表与表格样式1-5盒子模型点击展开剩余9项1-6浮动与弹性布局1-......
  • Bootstrap Your Own Latent A New Approach to Self-Supervised Learning论文阅读笔记
    BootstrapYourOwnLatentANewApproachtoSelf-SupervisedLearning论文阅读笔记Abstract​ 我们提出了BYOL,一种新的自监督图像表示学习的方法。BYOL依赖于两个神经网络,即在线网络和目标网络,它们相互作用和相互学习。从一个图像的增广视图出发,我们训练在线网络来预测同一图......
  • DSP笔记[2]-数码管显示英文字母及在flash上运行
    摘要在TMS320F28335开发板上实现8位数码管显示英文字母及烧录程序到Flash中断电程序不丢失;矩阵键盘扫描,实现按键1清零,按键2累加,按键3显示字母,按键4显示数字,按键5开关LED灯;LED流水灯.关键信息系统:macOS13.5(AppleSiliconM2)(烧录)系统:windows11(arm64)(编译)......
  • Git 笔记
    Git学习Git环境配置git配置文件本质都是基本的文件安装后必须配置项#配置用户信息gitconfig--globaluser.name='用户名'gitconfig--globaluser.email='邮箱地址查看配置git config -l查看不同级别的配置文件:#查看系统configgitconfig--system--list#......
  • Manacher 学习笔记
    \(\text{Manacher}\)学习笔记定义所谓回文串,指的是对于一个字符串\(s\),若它的长为\(n\),下标从\(1\)到\(n\),如果\(\foralli\in[1,n],s_i=s_{n+1-i}\),那么字符串\(s\)是一个回文串。给定一个字符串\(s\),求解它总共的回文子串个数。对于这一类问题的求解,我们发现,因为......
  • 如何理解计算机类论文、机器学习论文、人工智能AI论文中的“soft”和“hard”呢?
    如何理解计算机类论文、机器学习论文、人工智能AI论文中的“soft”和“hard”呢?最近在看论文中总看到带有“soft”和“hard”的专业术语(terminology),一般二者都是作为对比进行出现的,那么问题就是在英文的计算机类论文的表达中这个“soft”和“hard”的区别点是什么?其实这个答案......
  • DP学习笔记
    Part1:DP的本质相信每个同学,都曾经有过被DP虐的经历。大部分同学在初学DP的时候,总是见一道题背过一道题,最后基本上是学会所有常见的套路,然后开始套模板。然而,随着层次的提升,这种文科生的思维就不够用了——毕竟谁会在IOI上傻乎乎地出个石子合并或者是多重背包呢?这样,我们......
  • CF1635F 笔记
    好题啊。题意给定\(n\)个二元组\((x_i,w_i)\),保证\(x\)升序。有\(m\)个询问\([l,r]\),对于每个询问求出:\[\min\limits_{l\lei<j\ler}(x_j-x_i)\cdot(w_i+w_j)\]题解一个精妙的结论:设\(L_i\)表示\(i\)左边第一个满足\(w_j\lew_i\)的\(j\),\(R_......
  • MYSQL学习笔记22: 多表查询
    多表查询单表查询查询emp表select*fromemp;查询dept表select*fromdept;笛卡尔积(全组合)#emp表有4条记录,dept表有6条记录#笛卡尔积有4*6=24条记录select*fromemp,dept;消除无效的笛卡尔积(emp和dept通过dept_id连接)select*fromemp,deptw......