论文解读：Convolutional Neural Network-based Place Recognition-2014

标签：Convolutional based Network 匹配假设图像 CNN 2014 21

在这里插入图片描述

关注微信公众号：XRobotSpace
关注微信公众号：依法编程

发表期刊/会议： ACRA
发表时间： 2014
参考引用： Z. Chen, O. Lam, A. Jacobson, M. Milford, Convolutional neural network-based place recognition, in: 2014 Australasian Conference on Robotics and Automation (ACRA 2014), 2014, pp. 1–8.
关键词： CNN特征；空间滤波；序列滤波；
更新时间： 20231010

Ⅰ. 主要内容

本文首次提出了基于CNN的地点识别方法。
文章主要由两部分组成：第一，使用ImageNet上预训练的CNN提取图像特征，得到当前帧与历史帧的匹配假设；第二，基于空间和序列滤波器对匹配假设进行滤波，以获得更优的匹配。总的来说就是先用CNN提取特征，然后特征匹配缺点初始的位置匹配假设，然后用两种方法对这个假设进行判别，把一些不合理的假设去掉。
在Eynsham和QUT数据集上进行验证，结果表明该算法在100%精度下实现了75%的召回率提高。
本文还在benchmark（Eynsham）和QUT数据集（具有更显著的视角变化）上对所有21层特征在地点识别方面的效果进行了性能对比。

Ⅱ. 方法的思想来源与创新点

思想来源：

CNN 能够在模型未明确训练的任务上产生较好的性能[Donahue, et al., 2013]，对新的数据集和任务具有较好的泛化能力。
[Babenko, et al., 2014] 在2014年利用CNN的中间层特征来完成图像检索任务并取得了相当好的性能。值得注意的是，最佳性能是由中间层特征取得的而非最终层特征。

创新点：

将CNN应用于地点识别任务
空间连续性滤波
序列滤波

Ⅲ. 方法

3.1 Feature Extractor

本文使用了在ImageNet 2012数据集上预训练的Overfeat [Sermanet, et al., 2013] 网络提取图像特征。

神经网络包括5个卷积阶段（stage1和stage2由卷积层、最大池化层、ReLU层构成；stage3和stage4由卷积层、0-padding层、ReLU层构成；stage5包含卷积层、0-padding层、ReLU层、最大池化层）和3个全连接阶段（stage6和stage7由全连接层和ReLU层构成；stage8只有全连接层），共有21层。

一幅图像 I I I输入网络，用 L k ( I ) , k = 1 , . . . , 21 L_k(I),k=1,...,21 Lk(I),k=1,...,21 表示图像在第 k t h k^{th} kth层的网络输出特征，两幅图像之间的匹配，就是对应层特征之间的距离度量。

3.2 Confusion Matrix（差异矩阵）

历史帧（training images）有R张图片，当前待检测帧（testing images）有T张图片，分别输入CNN进行特征提取，对于CNN的第k层输出特征，生成R×T的差异矩阵 M k , k = 1 , . . . , 21 M_k,k=1,...,21 Mk,k=1,...,21，矩阵中的每个元素 M k ( i , j ) M_k(i,j) Mk(i,j)表示第i个历史帧图片和第j个当前帧图片之间特征向量的欧氏距离。

每列 j 存储第j个测试图像和所有训练图像之间的平均特征向量差。在每一列中搜索具有最低特征向量差异的元素，得到位置匹配假设。

3.3 Spatial Continuity（空间连续滤波——位置不会突变）

地点匹配假设序列中剔除空间上不连续的点，提供了一个不需要特定运动模型约束的滤波方法。

在差异矩阵中，位置匹配假设是每一列中差异最小的点，如图中的橙色色块，空间连续性检查是对第j列位置匹配假设合理性的检查。具体操作是，在第j列前面选择d列的一个区间，区间内的任意连续两个匹配假设之间的差值小于某一阈值，则表示第j列位置匹配假设成立，否则，就把第j列的位置匹配假设剔除。

3.4 Sequential Filter（序列滤波——两次轨迹速度不会突变）

SeqSLAM中搜索所有匹配假设的相干对角序列，本文在局部序列范围（3.3节的d区间） S j = { M ( j − d ) , M ( j − d + 1 ) , . . . , M ( j ) } S_j=\{M(j-d),M(j-d+1),...,M(j)\} Sj={M(j−d),M(j−d+1),...,M(j)}内对匹配假设点拟合线性多项式模型

其中j是当前图像帧， α j \alpha_j αj描述序列 S j S_j Sj中线性模型的斜率，表示历史执行轨迹和当前执行轨迹的速度比率。如果速度比率 α j \alpha_j αj在参考速度 σ \sigma σ**周围一定边界范围 ** φ \varphi φ**内，则包含一个序列的地点匹配假设 ** F ( j ) F(j) F(j)就认为是可接受的。

Ⅳ. 实验与结论

数据集： Eynsham；QUT

图像预处理： 全分辨率图-灰度图-直方图归一化（降低光照变化影响）- resize (256, 256)

Baseline: FAB-MAP 2.0 and SeqSLAM

评价指标： 精确率-召回率曲线【Precision-Recall curves】

结论：

CNN 特征方法优于传统方法Figure8(a)。
中间层的特征对相对静态、视角相似的图像地点识别效果最优Figure8(b, c)。
较高层的特征对视角变化的图像表现出较好性能Figure9。

参考文献

Babenko, Artem, et al. “Neural codes for image retrieval.” Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part I 13. Springer International Publishing, 2014.
Donahue, Jeff, et al. “Decaf: A deep convolutional activation feature for generic visual recognition.” International conference on machine learning. PMLR, 2014.
Sermanet, Pierre, et al. “Overfeat: Integrated recognition, localization and detection using convolutional networks.” arXiv preprint arXiv:1312.6229 (2013).

标签：Convolutional,based,Network,匹配,假设,图像,CNN,2014,21
From： https://blog.csdn.net/tyyhmtyyhm/article/details/137043195