首页 > 其他分享 >基于卷积神经网络的MAE自监督方法

基于卷积神经网络的MAE自监督方法

时间:2023-08-11 15:46:43浏览次数:37  
标签:卷积 神经网络 MAE ViT CNN 方法 输入

本文分享自华为云社区《基于卷积神经网络的MAE自监督方法》,作者: Hint 。

图像自监督预训练算法是近年来的重要研究方向,MAE是其中基于ViT实现的代表性方法,学习到了鲁棒的视觉特征。MAE全称是Masked Autoencoders,是由何凯明提出的自监督预训练方法,借鉴了BERT的预训练任务,将输入图片的patch以较大的比例进行mask,并通过非对称的ViT编码解码器结构,进行masked patches的重建任务。该方法在性能上超过了以往的对比学习方法,如MoCo系列等。然而ViT的结构复杂,计算量庞大,基于CNN的类MAE方法具有极高研究价值,但受限于CNN的结构特性,常规的MAE方式无法直接在CNN上应用。本文介绍ICLR2023的方法Spark[1],实现了基于CNN的MAE。

cke_146.png

如上图所示,对于一个masked的输入图片,对ViT输入和CNN的输入计算统计直方图,ViT的直方图是和未mask的图片分布一致的,而CNN的直方图发生了很大变化。这是由于ViT结构天然适合处理变长、不规则的输入,且不同的输入之间不会重叠计算。CNN的滑窗操作和规则的卷积核形状,导致模型会严重受到mask部分的影响。

cke_147.png

因此作者借鉴了3D点云领域的稀疏卷积,该卷积只对未mask的像素进行计算,忽略masked的像素,可以处理不规则的输入,实现了和ViT类似的效果。另外,为了学习到多尺度的特征,作者设计了分层次的解码器,参考了UNet的结构设计,使模型学习到多尺度的特征,适应CNN的多层级结构。

cke_148.png

从以下的实验结果来看,该方法的性能媲美原始的MAE方法,并在各种下游任务中取得了SOTA的结果,作者也证明了各个设计模块的有效性以及该方法的通用性。

cke_149.pngcke_150.pngcke_151.pngcke_152.pngcke_153.png

[1]Tian K, Jiang Y, Diao Q, et al. Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling[J]. arXiv preprint arXiv:2301.03580, 2023.

 

点击关注,第一时间了解华为云新鲜技术~

 

标签:卷积,神经网络,MAE,ViT,CNN,方法,输入
From: https://www.cnblogs.com/huaweiyun/p/17623137.html

相关文章

  • 基于卷积神经网络的MAE自监督方法
    本文分享自华为云社区《基于卷积神经网络的MAE自监督方法》,作者:Hint。图像自监督预训练算法是近年来的重要研究方向,MAE是其中基于ViT实现的代表性方法,学习到了鲁棒的视觉特征。MAE全称是MaskedAutoencoders,是由何凯明提出的自监督预训练方法,借鉴了BERT的预训练任务,将输入图片的......
  • 数学建模---- 预测模型 BP神经网络
    什么时候要用BP神经网络?当样本数量<自变量+1的时候,这个时候我们不太适合用回归 可以用BP神经网络  当因变量有多个时,一般我们做回归都只有一个因变量 当因变量有多个可以考虑用神经网络 神经网络的操作步骤: 一个例题:  导入数据:......
  • MATLAB用深度学习长短期记忆 (LSTM) 神经网络对智能手机传感器时间序列数据进行分类|
    原文链接:http://tecdat.cn/?p=26318原文出处:拓端数据部落公众号 最近我们被客户要求撰写关于长短期记忆(LSTM)神经网络的研究报告,包括一些图形和统计输出。此示例说明如何使用长短期记忆(LSTM)网络对序列数据的每个时间步长进行分类。要训​​练深度神经网络对序列数据......
  • 深度神经网络
    需要解决的问题:1、掉入局部最优解的陷阱2、过拟合(陷入对特定模式的数据进行最优化,无法对未知输入进行正确的预测)3、梯度消失——使用ReLU作为激励函数4、学习时间过长一些解决方案:1、更换最优化算法2、批次尺寸最优化3、对超参数的最优化(神经网络层数、神经元个数、学习......
  • 卷积神经网络
    卷积神经网络CNN——常用于图像识别(1)卷积层·卷积——通过对图像进行卷积运算,可以对图像的某个特征进行选择性的增强或减弱·图像的局部性——各个像素点与其附近的像素点之间具有强关联——卷积层利用此对图像的特征进行检测·图像的张数——RGB就是三个,即通道数,单色图......
  • LSTM长短期记忆递归神经网络
    0.什么是LSTMLSTM,全称LongShortTermMemory(长短期记忆)是一种特殊的递归神经网络 。这种网络与一般的前馈神经网络不同,LSTM可以利用时间序列对输入进行分析;简而言之,当使用前馈神经网络时,神经网络会认为我们t 时刻输入的内容与 t+1 时刻输入的内容完全无关,对于许多......
  • 准确预测极端降水,哥伦比亚大学推出升级版神经网络 Org-NN
    内容一览:随着环境变化加剧,近年来全球极端天气现象频频出现,准确预测降水强度对人类以及自然环境都十分重要。传统模型预测降水的方差较小,偏向小雨,对极端降水预测不足。关键词:极端天气内隐学习神经网络:::hljs-center本文首发于HyperAI超神经微信公众平台~:::受台风「......
  • 4.深度学习(1) --神经网络编程入门
    ✅作者简介:热爱科研的算法开发者,Python、Matlab项目可交流、沟通、学习。......
  • 神经网络相关(1)
    神经网络权重w偏置b激励函数f=Σxw+b上层网络→下层网络m*n矩阵代表权重矩阵;偏置的数量和下层网络的神经元数量一致,为n;u=np.dot(x,w)+b一般来说,输出层的神经元数量n个,则用n阶形式的独热编码格式数据来表示 几种激励函数:1、阶跃函数阶梯型函数,类似分段函数但......
  • 神经网络相关(2)
    多个神经元的实现——回归问题:  %matplotlibinline#IPython的魔法函数,可以在IPython编译器里直接使用,作用是内嵌画图,省略掉plt.show()这一步,直接显示图像importnumpyasnpimportmatplotlib.pyplotaspltX=np.arange(-1.0,1.0,0.2)Y=np.arange(-1.0,1.0......