开端
ViT(Visual Transformer)是 2020 年 Google 团队提出的将 Transformer 应用在图像分类的模型,但是当训练数据集不够大的时候,ViT 的表现通常比同等大小的 ResNets 要差一些。
为什么呢?寻找答案的过程中,发现了 归纳偏置 这个概念。
在阅读 【深度学习】归纳偏置(Inductive Biases) 和 ViT(Vision Transformer)解析 后,整理了一下学到的内容。
结论
Transformer 结构缺乏 CNN 网络先天的归纳偏置,因此需要足够多训练数据才能有更好的表现[1]。
归纳偏置?
归纳偏置(inductive biases),指的是模型在预测其未遇到过的输入结果时,所做的假设[2]。
卷积网路,假设了数据的特征具有局部性和平移不变性;循环神经网络,假设了数据具有序列相关性和时序不变性……[3]
就像人类可以利用已有经验快速认识未知的事物,模型的 “经验” 就被称为归纳偏置。合理的 “经验” 不仅能让网络模型能够更轻松学习到数据的特征,还能提高模型的泛化能力(认识未知事物的能力)。
具体举例来说,虽然循环神经网络的 “经验” 并不完美(输入序列不一定都是时序性的),但如果绝输入序列大都是时序性的(比如语言),循环神经网络就更容易学习到输入序列的信息。
Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020). https://arxiv.org/abs/2010.11929v2 ↩︎
Goyal, Anirudh, and Yoshua Bengio. "Inductive biases for deep learning of higher-level cognition." Proceedings of the Royal Society A 478.2266 (2022): 20210068. https://arxiv.org/abs/2011.15091 ↩︎