1. Spatial Transformer Layer
1.1 CNN is not invariant to scaling and rotation
(1) CNN并不能真正做到scaling和rotation.
(2) 如下图所示,在通常情况下,左右两边的图片对于CNN来说是不一样的.
所以,我们考虑一层layer,这层layer能够对input image进行旋转缩放,以便更好地识别.
如上图所示,Spatial Transformer Layer是Neuron Network,而它的作用是多学习一层layer,对左边的图片做scaling和rotation后,能够被CNN识别出来.当然,这个Layer也可以transform CNN的feature map.
1.2 How to transform an image/feature map