首页 > 其他分享 >Visual Transformer 与归纳偏置

Visual Transformer 与归纳偏置

时间:2023-12-31 14:11:43浏览次数:22  
标签:偏置 Transformer 归纳 Visual ViT org

开端

ViT(Visual Transformer)是 2020 年 Google 团队提出的将 Transformer 应用在图像分类的模型,但是当训练数据集不够大的时候,ViT 的表现通常比同等大小的 ResNets 要差一些。

为什么呢?寻找答案的过程中,发现了 归纳偏置 这个概念。

在阅读 【深度学习】归纳偏置(Inductive Biases)ViT(Vision Transformer)解析 后,整理了一下学到的内容。

结论

Transformer 结构缺乏 CNN 网络先天的归纳偏置,因此需要足够多训练数据才能有更好的表现[1]

归纳偏置?

归纳偏置(inductive biases),指的是模型在预测其未遇到过的输入结果时,所做的假设[2]

卷积网路,假设了数据的特征具有局部性和平移不变性;循环神经网络,假设了数据具有序列相关性和时序不变性……[3]

就像人类可以利用已有经验快速认识未知的事物,模型的 “经验” 就被称为归纳偏置。合理的 “经验” 不仅能让网络模型能够更轻松学习到数据的特征,还能提高模型的泛化能力(认识未知事物的能力)。

具体举例来说,虽然循环神经网络的 “经验” 并不完美(输入序列不一定都是时序性的),但如果绝输入序列大都是时序性的(比如语言),循环神经网络就更容易学习到输入序列的信息。


  1. Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020). https://arxiv.org/abs/2010.11929v2 ↩︎

  2. https://en.wikipedia.org/wiki/Inductive_bias ↩︎

  3. Goyal, Anirudh, and Yoshua Bengio. "Inductive biases for deep learning of higher-level cognition." Proceedings of the Royal Society A 478.2266 (2022): 20210068. https://arxiv.org/abs/2011.15091 ↩︎

标签:偏置,Transformer,归纳,Visual,ViT,org
From: https://www.cnblogs.com/chirp/p/17937468

相关文章

  • transformers 系列
    Attention注意力机制【1】-入门篇注意力机制【2】-CV中的注意力机制注意力机制【3】-SelfAttention注意力机制【4】-多头注意力机制注意力机制【5】ScaledDot-ProductAttention和maskattention注意力机制【6】-transformer和PositionalEncodingBert【1】-基础 ......
  • VsCode(Visual Studio Code) 安装插件教程
    VsCode(VisualStudioCode)安装插件教程编辑1、打开VsCode编辑桌面上、最近安装程序上找找吧在桌面上双击,打开2、打开的效果图编辑3、点击左侧最后的插件图标编辑4、打开后如下图所示编辑5、在输入框中输入Go编辑6、同样在安装插件页面也可以卸载、安装其它版本和禁用操作编辑你有......
  • VIT Vision Transformer
    VITVisionTransformer目录VITVisionTransformerViT模型结构图像划分PatchLinearProjectionofFlattedPatchesPatch+PositionEmbedding分类向量和位置向量EncoderMLPHead(全连接头)VIT模型参数对比ViT思考DETR为什么处理成patch部分模块改进思路参考资料论文地址:https:......
  • DETR基于Transformer目标检测
    DETR基于Transformer目标检测目录DETR基于Transformer目标检测DETR网络结构和NLPTransformer对比ObjectQueryFFN为什么DETR不需要NMS优缺点参考资料DETR首次将Transformer应用到了目标检测任务中。图像会先经过一个传统的CNN抽出图像特征来,然后再将CNN的输出直接送到Transform......
  • Swin Transformer
    SwinTransformer目录SwinTransformer简介VIT的缺陷核心创新总体结构和运作网络细节PatchpartitionLinearEmbeddingPatchMergingSwinBlock模块W-MSASW-MSAAttentionMask计算成本分析主要优势SwinTransformerV2参考简介论文地址:https://arxiv.org/pdf/2103.14030.pdf......
  • 【五期杨志】CCF-A(CVPR'22) Dual-Key Multimodal Backdoors for Visual Question Answe
    WalmerM,SikkaK,SurI,etal.Dual-KeyMultimodalBackdoorsforVisualQuestionAnswering[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition(CVPR).2022:15375-15385.  目前多模态学习在多种领域方面取得了重要进展,但......
  • 小白看得懂的 Transformer (图解)
    1.导语谷歌推出的BERT模型在11项NLP任务中夺得SOTA结果,引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务,当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并......
  • 如何构建高效的Transformer模型
    1.背景介绍自从Transformer模型在NLP领域取得了巨大成功以来,它已经成为了一种广泛应用于各种自然语言处理任务的模型架构。在这篇文章中,我们将深入探讨如何构建高效的Transformer模型,揭示其核心概念、算法原理以及实际应用。1.1背景Transformer模型的出现在2017年,由Vaswani等人在......
  • 【Transformer 基础系列】手推显存占用
    https://zhuanlan.zhihu.com/p/648924115 本文试图以最清晰的方式手动推导Transformers每一步的参数量到显存、计算量问题。理解底层,才能更好的做训练和优化。可能是目前最全的大模型显存优化方案分析。本文内容包括(1)模型训练和推理过程中的显存占用(2)KVcache、中间激活值等......
  • 自然语言处理的模型:从 Bag of Words 到 Transformer
    1.背景介绍自然语言处理(NLP)是计算机科学与人工智能的一个分支,研究如何让计算机理解、生成和处理人类语言。自然语言处理的主要任务包括文本分类、情感分析、命名实体识别、语义角色标注、语义解析、机器翻译等。随着大数据时代的到来,自然语言处理技术的发展得到了巨大的推动。在过......