《AdaZoom: Towards Scale-Aware Large Scene Object Detection》 笔记
1. 研究动机
1.1 挑战与困难
小目标检测和对象尺度差异存在挑战
现有研究方法对于大场景中如此极端尺度变化的物体缺乏灵活性,缺乏对不同尺度物体的适应性。
1.2 解决方案
构建了一个自适应缩放网络(简称AdaZoom),对大场景图像中小物体的区域进行“聚焦”,并对不同尺度的物体进行自适应缩放
让目标检测成为主动,将AdaZoom的学习制定为基于强化学习(RL)的主动决策过程。
2. 方法解析
2.1 强化学习的策略梯度模型
该模型是期望函数模型奖励期望值,θ是期望函数都参数,γ是衰减值(时间步越大,得到奖励越衰减),r_t就是每一步得到的reward
该式是策略梯度的梯度上升算法,梯度上升,最大化期望值
2.1.1 state
状态S_t由基本特征图F_t和历史信息图H_t组成
参数表示
(3)中X_1t/K,Y_1t,/K,就这些边界框的坐标除去一个常数,是意味着这个边界框的放缩
(4)的意思是,H(i,j)是一个二维数组map,然后map里面的每一对(i,j)根据自己是否属于边界框的情况,来更新(i,j)坐标在二维数组map里面的值,因为Ⅱ是指示函数,Ⅱ后面的大括号判断该指示函数是0或1,H_t+1就是,如果满足条件,map上该坐标值+1,反之保留原状
(5)式也一个道理,当满足条件,在本来得坐标上乘κ,反之保留
2.1.2 Action
动作At从概率分布πΘ(At|St)中采样
第一个分支生成固定点pf (af |St)的概率分布,其中af为固定概率图pf∈Rh×w上的一个点,固定分支试图找到一组对象的中心
第二个分支生成一个尺度概率图其中n_s为候选区域尺度,尺度分支的作用是根据固定点周围物体的尺度来调整区域的尺度
第三个分支生成高宽比概率图p,n_r,定义为预定义的候选宽高比大小,高宽比分支以选定的区域尺度适应固定周围物体的分布。
策略网络
将状态输入到五个卷积网络,第一个卷积网络连接全局平均池化层,五个卷积网络拥有不同的卷积核以及膨胀率(感觉是卷积方式不同),以提取不同的感受野,最后把五个平行网络的输出concat连接起来,输入SEModule,一个全局池化,两个全连接,最后通过sigmoid生成概率分布
2.1.3 reward
(7)式,表示框内物体,而表示不在框内目标,大括号中的 X_1t,X_2t,Y_1t,Y_2t表示候选区域(大框),而u和v则表示,目标检测框(小框),(7)式的意义在于,不断地把框外目标给圈到框内
(8)式,框外物体的更新,就在于,不断地把已经进入框内的物体给去除
(9)式,奖励的计算,结合下文(10)式,(先跳转去看(10)),可以通过第i个物体检测框预测尺寸和真实尺寸来定义评分Ii,权重wi的定义则根据其尺寸,尺寸越小,难度越大,故越重要,所以给它更高的权重但我不太理解的点是,为什么大家的分母不一样,要根据i,越大,分母越大,i有没有什么意义?于是加权求和完的评分就是reward
(10)式,感觉像是定义一个评分:
当真实尺度ρ在神经网络算出的action(scale),范围内,就表示差不多算对了,所以评分就为正值一,反之就要接受惩罚 如式:
Δρ =,对于这个式子的理解,就是真实ρ和神经网络action预测的scale差距越大,Δρ越大,带入到(10)式,惩罚越大,因为根据数学推导,(10)的otherwise肯定小于1
标签:10,AdaZoom,Towards,卷积,尺度,Detection,框内,物体 From: https://www.cnblogs.com/cjtaaa/p/18174900