AdaZoom: Towards Scale-Aware Large Scene Object Detection 论文解读

时间：2024-05-06 14:00:13浏览次数：21

标签：10 AdaZoom Towards 卷积尺度 Detection 框内物体

《AdaZoom: Towards Scale-Aware Large Scene Object Detection》笔记
1. 研究动机
1.1 挑战与困难
小目标检测和对象尺度差异存在挑战
现有研究方法对于大场景中如此极端尺度变化的物体缺乏灵活性，缺乏对不同尺度物体的适应性。
1.2 解决方案
构建了一个自适应缩放网络(简称AdaZoom)，对大场景图像中小物体的区域进行“聚焦”，并对不同尺度的物体进行自适应缩放
让目标检测成为主动，将AdaZoom的学习制定为基于强化学习(RL)的主动决策过程。
2. 方法解析
2.1 强化学习的策略梯度模型
该模型是期望函数模型奖励期望值，θ是期望函数都参数，γ是衰减值（时间步越大，得到奖励越衰减），r_t就是每一步得到的reward

该式是策略梯度的梯度上升算法，梯度上升，最大化期望值

2.1.1 state
状态S_t由基本特征图F_t和历史信息图H_t组成
参数表示

（3）中X_1t/K,Y_1t,/K,就这些边界框的坐标除去一个常数，是意味着这个边界框的放缩

（4）的意思是，H(i,j)是一个二维数组map，然后map里面的每一对（i,j）根据自己是否属于边界框的情况，来更新（i，j）坐标在二维数组map里面的值，因为Ⅱ是指示函数，Ⅱ后面的大括号判断该指示函数是0或1，H_t+1就是，如果满足条件，map上该坐标值+1，反之保留原状

（5）式也一个道理，当满足条件，在本来得坐标上乘κ，反之保留

2.1.2 Action
动作At从概率分布πΘ(At|St)中采样

第一个分支生成固定点pf (af |St)的概率分布，其中af为固定概率图pf∈Rh×w上的一个点，固定分支试图找到一组对象的中心

第二个分支生成一个尺度概率图其中n_s为候选区域尺度，尺度分支的作用是根据固定点周围物体的尺度来调整区域的尺度

第三个分支生成高宽比概率图p，n_r,定义为预定义的候选宽高比大小，高宽比分支以选定的区域尺度适应固定周围物体的分布。

策略网络

将状态输入到五个卷积网络，第一个卷积网络连接全局平均池化层，五个卷积网络拥有不同的卷积核以及膨胀率（感觉是卷积方式不同），以提取不同的感受野，最后把五个平行网络的输出concat连接起来，输入SEModule,一个全局池化，两个全连接，最后通过sigmoid生成概率分布

2.1.3 reward

(7)式，表示框内物体，而表示不在框内目标，大括号中的 X_1t,X_2t,Y_1t,Y_2t表示候选区域（大框），而u和v则表示，目标检测框（小框），(7)式的意义在于，不断地把框外目标给圈到框内

(8)式，框外物体的更新，就在于，不断地把已经进入框内的物体给去除

(9)式，奖励的计算，结合下文(10)式,(先跳转去看（10）)，可以通过第i个物体检测框预测尺寸和真实尺寸来定义评分Ii,权重wi的定义则根据其尺寸，尺寸越小，难度越大，故越重要，所以给它更高的权重但我不太理解的点是，为什么大家的分母不一样，要根据i,越大，分母越大，i有没有什么意义？于是加权求和完的评分就是reward

(10)式，感觉像是定义一个评分:

当真实尺度ρ在神经网络算出的action（scale），范围内，就表示差不多算对了，所以评分就为正值一，反之就要接受惩罚如式：

Δρ =,对于这个式子的理解，就是真实ρ和神经网络action预测的scale差距越大，Δρ越大，带入到(10)式，惩罚越大，因为根据数学推导，（10）的otherwise肯定小于1

标签：10,AdaZoom,Towards,卷积,尺度,Detection,框内,物体
From： https://www.cnblogs.com/cjtaaa/p/18174900

Barcode Detection API
BarcodeDetectionAPI:用于检测图像中的条形码和二维码//创建新检测器constbarcodeDetector=newBarcodeDetector({formats:["qr_code"],});//检查支持的类型BarcodeDetector?.getSupportedFormats().then((supportedFormats)=>{supportedFormats.forEach(......
[Paper Reading] DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D
名称DETR3D:3DObjectDetectionfromMulti-viewImagesvia3D-to-2DQueries时间：21.10机构：mit/CMU/StanfordTL;DR一种利用Transformer做E2E的3D目标检测方法，在nuScenes自动驾驶数据集上取得很好效果。Method主要创新点在于2D-to-3DFeatureTransforms模块，细节如图描......
[基础] DETR：End-to-End Object Detection with Transformers
名称End-to-EndObjectDetectionwithTransformers时间：22.05机构：FacebookAITL;DR文章提出一种称为DETR(DetectionTransformer)的基于Transformer的检测器，相比于传统检测器不需要NMS以及anchor，仅需要少量objectqueries就可以同时推理出所有预测结果。MethodInference......
openGauss Anomaly-detection-异常检测使用指导
使用指导假设指标采集系统运行正常，并且用户已经初始化了配置文件目录confpath，则可以通过下述命令实现本特性的功能：仅启动异常检测功能：gs_dbmindservicestart--confconfpath--only-runanomaly_detection对于某一指标，在全部节点上，从timestamps1到timestamps1时间段内的数......
openGauss Anomaly-detection-异常检测获取帮助
获取帮助模块命令行说明：gs_dbmindcomponentanomaly_detection--help显示如下帮助信息：usage:anomaly_detection.py[-h]--action{overview,plot}-cCONF-mMETRIC-sSTART_TIME-eEND_TIME[-HHOST][-aANOMALY]WorkloadAnomalyd......
openGauss Anomaly-detection-异常检测命令参考
命令参考表1命令行参数说明参数参数说明取值范围-h,--help帮助命令---action动作参数overview：概览plot：可视化-c，--conf配置文件目录--m，--metric-name指定显示指标名--H,--host指定数据来源地址信息，通过地址信息进行过滤-ip地址或......
无监督多视角行人检测 Unsupervised Multi-view Pedestrian Detection
无监督多视角行人检测UnsupervisedMulti-viewPedestrianDetection论文url：https://arxiv.org/abs/2305.12457论文简述该论文提出了一种名为UnsupervisedMulti-viewPedestrianDetection(UMPD)的新方法，旨在通过多视角视频监控数据准确地定位行人，而无需依赖于人工标注的视......
一种提升深度多视角行人检测的泛化性能的方法 Bringing Generalization to Deep Mult
一种提升深度多视角行人检测的泛化性能的方法BringingGeneralizationtoDeepMulti-ViewPedestrianDetection论文url：https://openaccess.thecvf.com/content/WACV2023W/RWS/html/Vora_Bringing_Generalization_to_Deep_Multi-View_Pedestrian_Detection_WACVW_2023_paper.......
大型场景中通过监督视图贡献加权进行多视图人物检测 Multi-View People Detection in
Multi-ViewPeopleDetectioninLargeScenesviaSupervisedView-WiseContributionWeighting大型场景中通过监督视图贡献加权进行多视图人物检测论文urlhttps://ojs.aaai.org/index.php/AAAI/article/view/28553论文简述：这篇论文提出了一个用于大型场景中多视角人体检测......
DISTILLM: Towards Streamlined Distillation for Large Language Models
本文是LLM系列文章，针对《DISTILLM:TowardsStreamlinedDistillationforLargeLanguageModels》的翻译。DISTILLM：面向大型语言模型的流线蒸馏摘要1引言2背景3DISTILLM4实验5分析与讨论6相关工作7结论摘要知识蒸馏（KD）被广泛用于将教师模型压缩为......

AdaZoom: Towards Scale-Aware Large Scene Object Detection 论文解读

相关文章

赞助商

阅读排行