平移不变性问题
1.数据域
随着网络时代的发展,生活中产生的数据量越来越多,但数据大体分为两类:欧几里得数据、非欧几里得数据。如下图为两类常见的数据:
1.1 欧几里得数据
它是一类具有很好的平移不变性的数据。对于这类数据以其中一个像素为节点,其邻居节点的数量相同。所以可以很好的定义一个全局共享的卷积核来提取图像中相同的结构。常见这类数据有图像、文本、语言。
数据特点:具有规则的空间结构,数据序列有序性、维数一致性
- 图像中的平移不变性:即不管图像中的目标被移动到图片的哪个位置,得到的结果(标签)应该相同的。
- 卷积被定义为不同位置的特征检测器
图像:图像是一种2D的网格类型数据,通常用矩阵进行存储。
文本:文本是一种1D的网格类型数据,通常可以用向量进行存储。对于文本,我们通常做法是去停用词、以及高频词(DIFT),最后嵌入到一个一维的向量空间。
1.2 非欧几里得数据
它是一类不具有平移不变性的数据。这类数据以其中的一个为节点,其邻居节点的数量可能不同。常见这类数据有知识图谱、社交网络、化学分子结构等等。
这类数据由于其不具备平移不变性,不能利用卷积核去提取相同的结构信息,所以卷积神经网络对于这类数据无能为力。所以衍生出了处理这类数据的网络,即图神经网络。
数据特点:不具备规则的空间结构,序列无序性、维数可变性
1.3 卷积神经网络数据域特点
CNN等传统卷积
•数据对象:欧几里得空间数据
•数据特点:具有规则的空间结构,数据序列有序性、维数一致性
局限性
•只能输入固定维度的数据
•局部输入数据必须有序
•语音、图像、视频等数据满足以上两条,但是并不适用于图结构数据
GNN等图卷积
•数据对象:非欧几里得空间图结构数据
•数据特点:不具备规则的空间结构,序列无序性、维数可变性
图卷积神经网络则弥补了传统卷积网络难以处理非欧空间数据的不足
2.平移不变性
2.1 平移不变性定义
平移不变性(Translation Invariance):在图像分类任务中,不变性意味着,当所需要识别的目标出现在图像的不同位置时,模型对其识别所得到的标签应该相同。即当输出进行变换后,还能得到相同的输出。
\[F(x)=F[transform(x)] \]2.2 平移相等性
平移相等性(Translation Equivariance):指在目标检测任务中,如果输入的图像中,对应的目标发生了平移,那么最终检测出的候选框也应发生相应的变化。即对输入进行变换后,输出也会发生相应的变换。
\[transform[F(x)]=F[transform(x)] \]3.平移不变与同变的讨论
平移不变性意味着系统产生完全相同的响应(输出),不管它的输入是如何平移的 。平移同变性(translation equivariance)意味着系统在不同位置的工作原理相同,但它的响应随着目标位置的变化而变化 。
4. 为什么卷积神经网络具有平移不变性
卷积神经网络中的平移相等性(Translation Equivariance)是由卷积操作带来的:卷积具有局部连接和参数共享的特性,当移动输入图像中的目标时,由于局部连接和参数共享的特点,对于移动后的目标,经过卷积操作后,也能得到同样的特征输出。
简单地说,卷积+最大池化约等于平移不变性。
卷积:简单地说,图像经过平移,相应的特征图上的表达也是平移的。下图只是一个为了说明这个问题的例子。输入图像的左下角有一个人脸,经过卷积,人脸的特征(眼睛,鼻子)也位于特征图的左下角。
假如人脸特征在图像的左上角,那么卷积后对应的特征也在特征图的左上角
在神经网络中,卷积被定义为不同位置的特征检测器,也就意味着,无论目标出现在图像中的哪个位置,它都会检测到同样的这些特征,输出同样的响应。比如人脸被移动到了图像左下角,卷积核直到移动到左下角的位置才会检测到它的特征。
池化:比如最大池化,它返回感受野中的最大值,如果最大值被移动了,但是仍然在这个感受野中,那么池化层也仍然会输出相同的最大值。这就有点平移不变的意思了。
所以这两种操作共同提供了一些平移不变性,即使图像被平移,卷积保证仍然能检测到它的特征,池化则尽可能地保持一致的表达。
参考链接
卷积神经网络为什么具有平移不变性? | Tina's Blog (zhangting2020.github.io)
关于平移不变性与平移相等性的理解与讨论 - 知乎 (zhihu.com)
标签:平移,卷积,神经网络,图上,图像,不变性,数据 From: https://www.cnblogs.com/jzYe/p/17806875.html