论文链接:https://arxiv.org/pdf/1812.01192.pdf
主要思想
提出了一种基于端到端学习的全景分割方法,一种新的任务统一实例分割(things)和语义分割(stuff)方法。论文中的模型,TASCNet,使用来自共享主干网络的特征映射,在一个前馈过程中同时预测thing和stuff的分割。通过一个全局的things-and-stuff二进制掩码显式地约束这两个输出分布,以增强跨任务一致性。论文提出的统一网络在多个用于全景分割的基准数据集上,以及在单个语义和实例分割任务上,都能够与当前SOTA算法相竞争~
主要贡献
- 端到端的全景分割方法,能够最佳的融合thing和stuff。
- 大多数参数在ResNet主干网络和四级特征金字塔网络(FPN)中共享,后者能够学习对后续语义分割和实例分割Head有用的表示。
- 提出了一个新的可微thing和stuff一致性(TASC),来维持训练过程中两个子任务输出分布的一致性。
- 本文的统一架构,TASCNet,保持或改善了单独训练模型的性能,并在Mapillary Vistas 、Cityscapes datasets和COCO数据集上取得了竞争性的结果。
- 实验证明本文的交叉任务约束是提高训练稳定性和准确性的关键。
- 证明了使用单一的网络有助于简化训练和推理过程,同时本文通过较大程度减少参数的数量来提高效率。
网络结构
如上图所示,网络分为两个模块:Things Head和Stuff Head。Things Head主要完成实例分割,Stuff Head主要完成语义分割,论文中采用了ResNet50和FPN结构作为backbone。
- 关于Things Head论文中采用类似于Mask RCNN结构的网络,输出目标的box坐标、类别信息以及mask掩码。
- 关于Stuff Head论文采用SegNet+FPN的思想,最终输出语义分割的结果和mask二进制掩码。
论文中还提到Things and Stuff Consistency (TASC),如下图红色方形框所示,主要用来衡量实例分割出的mask和语义分割出的mask的一致性,这可以监督两个任务的同步性。其中M1,M2……Mn代表实例分割中每个物体的掩码,论文采用将其合并的方式来生成语义分割的整体mask图像。
实例分割和语义分割结果融合:
在一个聚合的TASCNet中,论文使用语义分割掩码来选择哪些像素是从实例分割输出中获得的,哪些像素是从语义分割输出中获得的。因此,论文定义了一个简单的后处理过程:将回归实例按置信度的降序添加到最终的全景输出中,仅当其和实例之间的IoU低于0.4且其与mask掩码的IoU大于0.7时才将添加到输出中。
实验结果
评估标准还是沿用何凯明提出的PQ标准:
其中P和Q是匹配的预测值和Ground Truth,TP、FP、FN分别表示真正、假正和假负。论文在Cityscapes、Vistas和COCO三类数据集下做了实验,结果如下~
上述内容,如有侵犯版权,请联系作者,会自行删文。