摘要
视觉属性构成了场景中包含信息的大部分。物体可以使用多种属性来描述,这些属性展现了它们的视觉外观(颜色、纹理)、几何特征(形状、大小、姿态)以及其他内在属性(状态、动作)。现有工作大多局限于特定领域内的属性预测研究。在本文中,我们介绍了一个大规模的野外视觉属性预测数据集,该数据集包含超过260K个对象实例的超过927K个属性注释。正式来说,对象属性预测是一个多标签分类问题,需要预测适用于一个对象的所有属性。我们的数据集由于属性数量众多、标签稀疏、数据不平衡以及对象遮挡,对现有方法提出了重大挑战。为此,我们提出了一些技术,系统地解决这些挑战,包括一个利用低级和高级CNN特征的多跳注意力基础模型,重加权和平采样技术,一种新颖的负标签扩展方案,以及一种新颖的监督式属性感知对比学习算法。使用这些技术,我们在当前技术水平上实现了近3.7的mAP和5.7的整体F1分数的改进。
论文框架
提出VAW数据集
在网络的不同层级中,各种属性的识别难度和类型有所不同:浅层可以识别颜色属性,而深层则能识别更抽象的属性。
VAW数据集中有
- 颜色 (color)
- 字母颜色 (letter color)
- 头发颜色 (hair color)
- 皮肤颜色 (skin color)
- 穿着颜色 (wearing color)
- 色调 (tone)
- 颜色数量 (color quantity)
- 亮度 (brightness)
- 高度 (height)
- 长度 (length)
- 宽度 (width)
- 肥度 (fatness)
- 尺寸 (size)
- 厚度 (thickness)
- 深度 (depth)
- 尺寸比较 (size comparison)
- 材料 (material)
- 形状 (shape)