Visual Transformer 与归纳偏置

时间：2023-12-31 14:11:43浏览次数：29

标签：偏置 Transformer 归纳 Visual ViT org

开端

ViT（Visual Transformer）是 2020 年 Google 团队提出的将 Transformer 应用在图像分类的模型，但是当训练数据集不够大的时候，ViT 的表现通常比同等大小的 ResNets 要差一些。

为什么呢？寻找答案的过程中，发现了 归纳偏置 这个概念。

在阅读【深度学习】归纳偏置（Inductive Biases）和 ViT（Vision Transformer）解析后，整理了一下学到的内容。

结论

Transformer 结构缺乏 CNN 网络先天的归纳偏置，因此需要足够多训练数据才能有更好的表现^[1]。

归纳偏置？

归纳偏置（inductive biases），指的是模型在预测其未遇到过的输入结果时，所做的假设^[2]。

卷积网路，假设了数据的特征具有局部性和平移不变性；循环神经网络，假设了数据具有序列相关性和时序不变性……^[3]

就像人类可以利用已有经验快速认识未知的事物，模型的 “经验” 就被称为归纳偏置。合理的 “经验” 不仅能让网络模型能够更轻松学习到数据的特征，还能提高模型的泛化能力（认识未知事物的能力）。

具体举例来说，虽然循环神经网络的 “经验” 并不完美（输入序列不一定都是时序性的），但如果绝输入序列大都是时序性的（比如语言），循环神经网络就更容易学习到输入序列的信息。

Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020). https://arxiv.org/abs/2010.11929v2 ↩︎
https://en.wikipedia.org/wiki/Inductive_bias ↩︎
Goyal, Anirudh, and Yoshua Bengio. "Inductive biases for deep learning of higher-level cognition." Proceedings of the Royal Society A 478.2266 (2022): 20210068. https://arxiv.org/abs/2011.15091 ↩︎

标签：偏置,Transformer,归纳,Visual,ViT,org
From： https://www.cnblogs.com/chirp/p/17937468

transformers 系列
Attention注意力机制【1】-入门篇注意力机制【2】-CV中的注意力机制注意力机制【3】-SelfAttention注意力机制【4】-多头注意力机制注意力机制【5】ScaledDot-ProductAttention和maskattention注意力机制【6】-transformer和PositionalEncodingBert【1】-基础 ......
VsCode（Visual Studio Code）安装插件教程
VsCode（VisualStudioCode）安装插件教程编辑1、打开VsCode编辑桌面上、最近安装程序上找找吧在桌面上双击，打开2、打开的效果图编辑3、点击左侧最后的插件图标编辑4、打开后如下图所示编辑5、在输入框中输入Go编辑6、同样在安装插件页面也可以卸载、安装其它版本和禁用操作编辑你有......
VIT Vision Transformer
VITVisionTransformer目录VITVisionTransformerViT模型结构图像划分PatchLinearProjectionofFlattedPatchesPatch+PositionEmbedding分类向量和位置向量EncoderMLPHead（全连接头）VIT模型参数对比ViT思考DETR为什么处理成patch部分模块改进思路参考资料论文地址：https:......
DETR基于Transformer目标检测
DETR基于Transformer目标检测目录DETR基于Transformer目标检测DETR网络结构和NLPTransformer对比ObjectQueryFFN为什么DETR不需要NMS优缺点参考资料DETR首次将Transformer应用到了目标检测任务中。图像会先经过一个传统的CNN抽出图像特征来，然后再将CNN的输出直接送到Transform......
Swin Transformer
SwinTransformer目录SwinTransformer简介VIT的缺陷核心创新总体结构和运作网络细节PatchpartitionLinearEmbeddingPatchMergingSwinBlock模块W-MSASW-MSAAttentionMask计算成本分析主要优势SwinTransformerV2参考简介论文地址：https://arxiv.org/pdf/2103.14030.pdf......
【五期杨志】CCF-A（CVPR'22） Dual-Key Multimodal Backdoors for Visual Question Answe
WalmerM,SikkaK,SurI,etal.Dual-KeyMultimodalBackdoorsforVisualQuestionAnswering[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition(CVPR).2022:15375-15385. 目前多模态学习在多种领域方面取得了重要进展，但......
小白看得懂的 Transformer (图解)
1.导语谷歌推出的BERT模型在11项NLP任务中夺得SOTA结果，引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务，当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点，利用self-attention机制实现快速并......
如何构建高效的Transformer模型
1.背景介绍自从Transformer模型在NLP领域取得了巨大成功以来，它已经成为了一种广泛应用于各种自然语言处理任务的模型架构。在这篇文章中，我们将深入探讨如何构建高效的Transformer模型，揭示其核心概念、算法原理以及实际应用。1.1背景Transformer模型的出现在2017年，由Vaswani等人在......
【Transformer 基础系列】手推显存占用
https://zhuanlan.zhihu.com/p/648924115 本文试图以最清晰的方式手动推导Transformers每一步的参数量到显存、计算量问题。理解底层，才能更好的做训练和优化。可能是目前最全的大模型显存优化方案分析。本文内容包括（1）模型训练和推理过程中的显存占用（2）KVcache、中间激活值等......
自然语言处理的模型：从 Bag of Words 到 Transformer
1.背景介绍自然语言处理（NLP）是计算机科学与人工智能的一个分支，研究如何让计算机理解、生成和处理人类语言。自然语言处理的主要任务包括文本分类、情感分析、命名实体识别、语义角色标注、语义解析、机器翻译等。随着大数据时代的到来，自然语言处理技术的发展得到了巨大的推动。在过......

Visual Transformer 与归纳偏置

开端

结论

归纳偏置？

相关文章

赞助商

阅读排行