首页 > 其他分享 >AdaZoom: Towards Scale-Aware Large Scene Object Detection 论文解读

AdaZoom: Towards Scale-Aware Large Scene Object Detection 论文解读

时间:2024-05-06 14:00:13浏览次数:15  
标签:10 AdaZoom Towards 卷积 尺度 Detection 框内 物体

《AdaZoom: Towards Scale-Aware Large Scene Object Detection》 笔记
1. 研究动机
1.1 挑战与困难
小目标检测和对象尺度差异存在挑战
现有研究方法对于大场景中如此极端尺度变化的物体缺乏灵活性,缺乏对不同尺度物体的适应性。
1.2 解决方案
构建了一个自适应缩放网络(简称AdaZoom),对大场景图像中小物体的区域进行“聚焦”,并对不同尺度的物体进行自适应缩放
让目标检测成为主动,将AdaZoom的学习制定为基于强化学习(RL)的主动决策过程。
2. 方法解析
2.1 强化学习的策略梯度模型
该模型是期望函数模型奖励期望值,θ是期望函数都参数,γ是衰减值(时间步越大,得到奖励越衰减),r_t就是每一步得到的reward

该式是策略梯度的梯度上升算法,梯度上升,最大化期望值

2.1.1 state
状态S_t由基本特征图F_t和历史信息图H_t组成
参数表示


(3)中X_1t/K,Y_1t,/K,就这些边界框的坐标除去一个常数,是意味着这个边界框的放缩

(4)的意思是,H(i,j)是一个二维数组map,然后map里面的每一对(i,j)根据自己是否属于边界框的情况,来更新(i,j)坐标在二维数组map里面的值,因为Ⅱ是指示函数,Ⅱ后面的大括号判断该指示函数是0或1,H_t+1就是,如果满足条件,map上该坐标值+1,反之保留原状

(5)式也一个道理,当满足条件,在本来得坐标上乘κ,反之保留

2.1.2 Action
动作At从概率分布πΘ(At|St)中采样

 

第一个分支生成固定点pf (af |St)的概率分布,其中af为固定概率图pf∈Rh×w上的一个点,固定分支试图找到一组对象的中心

第二个分支生成一个尺度概率图其中n_s为候选区域尺度,尺度分支的作用是根据固定点周围物体的尺度来调整区域的尺度

第三个分支生成高宽比概率图p,n_r,定义为预定义的候选宽高比大小,高宽比分支以选定的区域尺度适应固定周围物体的分布。

策略网络


将状态输入到五个卷积网络,第一个卷积网络连接全局平均池化层,五个卷积网络拥有不同的卷积核以及膨胀率(感觉是卷积方式不同),以提取不同的感受野,最后把五个平行网络的输出concat连接起来,输入SEModule,一个全局池化,两个全连接,最后通过sigmoid生成概率分布

2.1.3 reward


(7)式,表示框内物体,而表示不在框内目标,大括号中的 X_1t,X_2t,Y_1t,Y_2t表示候选区域(大框),而u和v则表示,目标检测框(小框),(7)式的意义在于,不断地把框外目标给圈到框内

(8)式,框外物体的更新,就在于,不断地把已经进入框内的物体给去除

(9)式,奖励的计算,结合下文(10)式,(先跳转去看(10)),可以通过第i个物体检测框预测尺寸和真实尺寸来定义评分Ii,权重wi的定义则根据其尺寸,尺寸越小,难度越大,故越重要,所以给它更高的权重但我不太理解的点是,为什么大家的分母不一样,要根据i,越大,分母越大,i有没有什么意义?于是加权求和完的评分就是reward

(10)式,感觉像是定义一个评分:

当真实尺度ρ在神经网络算出的action(scale),范围内,就表示差不多算对了,所以评分就为正值一,反之就要接受惩罚 如式:

Δρ =,对于这个式子的理解,就是真实ρ和神经网络action预测的scale差距越大,Δρ越大,带入到(10)式,惩罚越大,因为根据数学推导,(10)的otherwise肯定小于1

标签:10,AdaZoom,Towards,卷积,尺度,Detection,框内,物体
From: https://www.cnblogs.com/cjtaaa/p/18174900

相关文章

  • Barcode Detection API
    BarcodeDetectionAPI:用于检测图像中的条形码和二维码//创建新检测器constbarcodeDetector=newBarcodeDetector({formats:["qr_code"],});//检查支持的类型BarcodeDetector?.getSupportedFormats().then((supportedFormats)=>{supportedFormats.forEach(......
  • [Paper Reading] DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D
    名称DETR3D:3DObjectDetectionfromMulti-viewImagesvia3D-to-2DQueries时间:21.10机构:mit/CMU/StanfordTL;DR一种利用Transformer做E2E的3D目标检测方法,在nuScenes自动驾驶数据集上取得很好效果。Method主要创新点在于2D-to-3DFeatureTransforms模块,细节如图描......
  • [基础] DETR:End-to-End Object Detection with Transformers
    名称End-to-EndObjectDetectionwithTransformers时间:22.05机构:FacebookAITL;DR文章提出一种称为DETR(DetectionTransformer)的基于Transformer的检测器,相比于传统检测器不需要NMS以及anchor,仅需要少量objectqueries就可以同时推理出所有预测结果。MethodInference......
  • openGauss Anomaly-detection-异常检测使用指导
    使用指导假设指标采集系统运行正常,并且用户已经初始化了配置文件目录confpath,则可以通过下述命令实现本特性的功能:仅启动异常检测功能:gs_dbmindservicestart--confconfpath--only-runanomaly_detection对于某一指标,在全部节点上,从timestamps1到timestamps1时间段内的数......
  • openGauss Anomaly-detection-异常检测获取帮助
    获取帮助模块命令行说明:gs_dbmindcomponentanomaly_detection--help显示如下帮助信息:usage:anomaly_detection.py[-h]--action{overview,plot}-cCONF-mMETRIC-sSTART_TIME-eEND_TIME[-HHOST][-aANOMALY]WorkloadAnomalyd......
  • openGauss Anomaly-detection-异常检测命令参考
    命令参考表1命令行参数说明参数参数说明取值范围-h,--help帮助命令---action动作参数overview:概览plot:可视化-c,--conf配置文件目录--m,--metric-name指定显示指标名--H,--host指定数据来源地址信息,通过地址信息进行过滤-ip地址或......
  • 无监督多视角行人检测 Unsupervised Multi-view Pedestrian Detection
    无监督多视角行人检测UnsupervisedMulti-viewPedestrianDetection论文url:https://arxiv.org/abs/2305.12457论文简述该论文提出了一种名为UnsupervisedMulti-viewPedestrianDetection(UMPD)的新方法,旨在通过多视角视频监控数据准确地定位行人,而无需依赖于人工标注的视......
  • 一种提升深度多视角行人检测的泛化性能的方法 Bringing Generalization to Deep Mult
    一种提升深度多视角行人检测的泛化性能的方法BringingGeneralizationtoDeepMulti-ViewPedestrianDetection论文url:https://openaccess.thecvf.com/content/WACV2023W/RWS/html/Vora_Bringing_Generalization_to_Deep_Multi-View_Pedestrian_Detection_WACVW_2023_paper.......
  • 大型场景中通过监督视图贡献加权进行多视图人物检测 Multi-View People Detection in
    Multi-ViewPeopleDetectioninLargeScenesviaSupervisedView-WiseContributionWeighting大型场景中通过监督视图贡献加权进行多视图人物检测论文urlhttps://ojs.aaai.org/index.php/AAAI/article/view/28553论文简述:这篇论文提出了一个用于大型场景中多视角人体检测......
  • DISTILLM: Towards Streamlined Distillation for Large Language Models
    本文是LLM系列文章,针对《DISTILLM:TowardsStreamlinedDistillationforLargeLanguageModels》的翻译。DISTILLM:面向大型语言模型的流线蒸馏摘要1引言2背景3DISTILLM4实验5分析与讨论6相关工作7结论摘要知识蒸馏(KD)被广泛用于将教师模型压缩为......