Towards Unified Text-based Person Retrieval:A Large-scale Multi-Attribute and Language Search Benchmark(SOTA)
1 INTRODUCTION
- 问题:
- 由于个人隐私的问题, 缺乏数据。
- 由于在进行人工标注时,标注者会采用比较简短单一的话语, 因此会存在标注偏见。
- 解决办法:
采用现成的扩散模型和图像总结模型来产生高质量的数据集。
- 利用真实世界的对行人的描述生成对应的行人图像, 确保合成数据对和真实世界的接近。
- 利用图像总结模型对合成的图像进行描述, 从而填充人工的文本描述的不足。
- 本文的工作
- 利用上述扩散模型和图文总结的模型生成了一个更大的针对跨模态的数据集Multi-Attribute and Language Search dataset(MALS)专门用于基于文本的行人检索。
- 提出了一种Attribute Prompt Learning and Text Matching Learning (APTM)的框架对于行人检索任务(预训练框架),这个框架主要包括:
利用文本获取属性注释:通过显式匹配(EM)和隐式扩展(IE)机制。
映射属性到一组属性提示:将属性映射到一组Attribute Prompts。
图像-文本对比学习(ITC)和图像-属性对比学习(IAC):作用于特征编码器的嵌入。
图像-文本匹配(ITM)、图像-属性匹配(IAM)、遮蔽语言建模(MLM)和遮蔽属性提示建模(MAM):施加于交叉编码器的相应预测。
2. 方法
1. APTM Architecture
主要包含两个部分, 一个是image-attribute stream,还有一个是image-text stream。整个模型包括三个编码器, 分别是:
- Image Encoder:Swin Transformer (Swin-B), 输入图像的分辨率为384 × 128, 切成32 × 32相互不重叠的部分, 总共有\(\frac{384 × 128}{32 × 32} = 48\)块。
- Text Encoder: 采用BERT, 利用BERT的前六层。
- Cross Encoder: 采用BERT, 主要采用它的跨注意力机制。