关注微信公众号:XRobotSpace
关注微信公众号:依法编程
发表期刊/会议: ACRA
发表时间: 2014
参考引用: Z. Chen, O. Lam, A. Jacobson, M. Milford, Convolutional neural network-based place recognition, in: 2014 Australasian Conference on Robotics and Automation (ACRA 2014), 2014, pp. 1–8.
关键词: CNN特征;空间滤波;序列滤波;
更新时间: 20231010
Ⅰ. 主要内容
- 本文首次提出了基于CNN的地点识别方法。
- 文章主要由两部分组成:第一,使用ImageNet上预训练的CNN提取图像特征,得到当前帧与历史帧的匹配假设;第二,基于空间和序列滤波器对匹配假设进行滤波,以获得更优的匹配。总的来说就是先用CNN提取特征,然后特征匹配缺点初始的位置匹配假设,然后用两种方法对这个假设进行判别,把一些不合理的假设去掉。
- 在Eynsham和QUT数据集上进行验证,结果表明该算法在100%精度下实现了75%的召回率提高。
- 本文还在benchmark(Eynsham)和QUT数据集(具有更显著的视角变化)上对所有21层特征在地点识别方面的效果进行了性能对比。
Ⅱ. 方法的思想来源与创新点
思想来源:
- CNN 能够在模型未明确训练的任务上产生较好的性能
[Donahue, et al., 2013]
,对新的数据集和任务具有较好的泛化能力。 [Babenko, et al., 2014]
在2014年利用CNN的中间层特征来完成图像检索任务并取得了相当好的性能。值得注意的是,最佳性能是由中间层特征取得的而非最终层特征。
创新点:
- 将CNN应用于地点识别任务
- 空间连续性滤波
- 序列滤波
Ⅲ. 方法
3.1 Feature Extractor
本文使用了在ImageNet 2012数据集上预训练的Overfeat [Sermanet, et al., 2013]
网络提取图像特征。
神经网络包括5个卷积阶段(stage1和stage2由卷积层、最大池化层、ReLU层构成;stage3和stage4由卷积层、0-padding层、ReLU层构成;stage5包含卷积层、0-padding层、ReLU层、最大池化层)和3个全连接阶段(stage6和stage7由全连接层和ReLU层构成;stage8只有全连接层),共有21层。
一幅图像 I I I输入网络,用 L k ( I ) , k = 1 , . . . , 21 L_k(I),k=1,...,21 Lk(I),k=1,...,21 表示图像在第 k t h k^{th} kth层的网络输出特征,两幅图像之间的匹配,就是对应层特征之间的距离度量。
3.2 Confusion Matrix(差异矩阵)
历史帧(training images)有R张图片,当前待检测帧(testing images)有T张图片,分别输入CNN进行特征提取,对于CNN的第k层输出特征,生成R×T的差异矩阵 M k , k = 1 , . . . , 21 M_k,k=1,...,21 Mk,k=1,...,21,矩阵中的每个元素 M k ( i , j ) M_k(i,j) Mk(i,j)表示第i个历史帧图片和第j个当前帧图片之间特征向量的欧氏距离。
每列 j 存储第j个测试图像和所有训练图像之间的平均特征向量差。在每一列中搜索具有最低特征向量差异的元素,得到位置匹配假设。
3.3 Spatial Continuity(空间连续滤波——位置不会突变)
地点匹配假设序列中剔除空间上不连续的点,提供了一个不需要特定运动模型约束的滤波方法。
在差异矩阵中,位置匹配假设是每一列中差异最小的点,如图中的橙色色块,空间连续性检查是对第j列位置匹配假设合理性的检查。具体操作是,在第j列前面选择d列的一个区间,区间内的任意连续两个匹配假设之间的差值小于某一阈值,则表示第j列位置匹配假设成立,否则,就把第j列的位置匹配假设剔除。
3.4 Sequential Filter(序列滤波——两次轨迹速度不会突变)
SeqSLAM中搜索所有匹配假设的相干对角序列,本文在局部序列范围(3.3节的d区间) S j = { M ( j − d ) , M ( j − d + 1 ) , . . . , M ( j ) } S_j=\{M(j-d),M(j-d+1),...,M(j)\} Sj={M(j−d),M(j−d+1),...,M(j)}内对匹配假设点拟合线性多项式模型
其中j是当前图像帧, α j \alpha_j αj描述序列 S j S_j Sj中线性模型的斜率,表示历史执行轨迹和当前执行轨迹的速度比率。如果速度比率 α j \alpha_j αj在参考速度 σ \sigma σ**周围一定边界范围 ** φ \varphi φ**内,则包含一个序列的地点匹配假设 ** F ( j ) F(j) F(j)就认为是可接受的。
Ⅳ. 实验与结论
数据集: Eynsham;QUT
图像预处理: 全分辨率图-灰度图-直方图归一化(降低光照变化影响)- resize (256, 256)
Baseline: FAB-MAP 2.0 and SeqSLAM
评价指标: 精确率-召回率曲线【Precision-Recall curves】
结论:
- CNN 特征方法优于传统方法Figure8(a)。
- 中间层的特征对相对静态、视角相似的图像地点识别效果最优Figure8(b, c)。
- 较高层的特征对视角变化的图像表现出较好性能Figure9。
参考文献
- Babenko, Artem, et al. “Neural codes for image retrieval.” Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part I 13. Springer International Publishing, 2014.
- Donahue, Jeff, et al. “Decaf: A deep convolutional activation feature for generic visual recognition.” International conference on machine learning. PMLR, 2014.
- Sermanet, Pierre, et al. “Overfeat: Integrated recognition, localization and detection using convolutional networks.” arXiv preprint arXiv:1312.6229 (2013).