1. 前言
这篇论文发表于neurips 2023。
这篇论文要解决什么问题?
- rank预测的类别和框体位置会发生错位,预测类别精度高,但是框体位置的定位不是最佳的,论文的改进目标就是将rank分数中类别和框体位置的分数进行统一
这篇论文作出的贡献?
- 对Dino中query selection阶段,对Encoder输出的特征生成粗略的边界框预测的top-k的选择排序过程进行改进
论文:
代码:
2. 背景
3. 框架
总思路:现代 detection transformers (DETR) 使用一组目标查询(object queries)来预测边界框列表,按分类置信度分数对它们进行排序,并选择top-ranked 预测作为给定输入图像的最终检测结果
3.1 Rank-adaptive Classification Head
以排名为导向的分类头,在原有的分类头中加入了一个偏置
作者将一组可学习的偏置向量\(S^l = \{s^l_1, s^l_2, ..., s^l_n\}\)添加到每个object query相关联的分类分数\(T^l = \{t^l_1, t^l_2, ..., t^l_n\}\),公式如下图所示。
\(Q^l = \{q^l_1, q^l_2, ..., q^l_n\}\)表示第l层输出的decoder embedding
最终得到第l层的分类预测\(P^l = \{p^l_1, p^l_2, ..., p^l_n\}\)
3.2 Query Rank Layer
作者在每一层decoder层都会对content query和position query进行排序,排序的依据就是根据上一层decoder层输出的分类分数\(P^{l-1}\)。有公式如下所示:
对H-detr的排序
对Dino-detr的排序
对Loss的改进