Towards Unified Text-based Person Retrieval:A Large-scale Multi-Attribute and Language Search Benchmark（SOTA）

1 INTRODUCTION

问题：

由于个人隐私的问题， 缺乏数据。
由于在进行人工标注时，标注者会采用比较简短单一的话语，因此会存在标注偏见。

解决办法：
采用现成的扩散模型和图像总结模型来产生高质量的数据集。

利用真实世界的对行人的描述生成对应的行人图像，确保合成数据对和真实世界的接近。
利用图像总结模型对合成的图像进行描述，从而填充人工的文本描述的不足。

本文的工作

利用上述扩散模型和图文总结的模型生成了一个更大的针对跨模态的数据集Multi-Attribute and Language Search dataset(MALS)专门用于基于文本的行人检索。
提出了一种Attribute Prompt Learning and Text Matching Learning (APTM)的框架对于行人检索任务（预训练框架），这个框架主要包括：
利用文本获取属性注释：通过显式匹配（EM）和隐式扩展（IE）机制。
映射属性到一组属性提示：将属性映射到一组Attribute Prompts。
图像-文本对比学习（ITC）和图像-属性对比学习（IAC）：作用于特征编码器的嵌入。
图像-文本匹配（ITM）、图像-属性匹配（IAM）、遮蔽语言建模（MLM）和遮蔽属性提示建模（MAM）：施加于交叉编码器的相应预测。

2. 方法

1. APTM Architecture

主要包含两个部分，一个是image-attribute stream，还有一个是image-text stream。整个模型包括三个编码器，分别是：

Image Encoder：Swin Transformer (Swin-B)，输入图像的分辨率为384 × 128，切成32 × 32相互不重叠的部分，总共有\(\frac{384 × 128}{32 × 32} = 48\)块。
Text Encoder：采用BERT，利用BERT的前六层。
Cross Encoder：采用BERT，主要采用它的跨注意力机制。

2.Attribute Prompt Learning

标签：10,Attribute,模型,图像,2024,32,文本,属性
From： https://www.cnblogs.com/xiaoyaoxie/p/18064266

2024-3-11
召回率(Recall)也被称为真正率（TruePositiveRate），是指在所有正类中，模型正确识别出的正类所占的比例。召回率越高，意味着模型遗漏的正类越少。\(Recall=\frac{真正例(TP)}{真正例(TP)+假负例(FN)}\)例子：假设在一个大型购物中心内，有一个监控系统负责行人重识别任务，目的是为了......
cmd 的图论练习题（近期总结 2024.3.11）
AGC010ERearranginglink题意：一个序列\(a_{1...n}\)，两个人游戏。先手打乱这个序列，然后后手可以多次选择一对相邻的互质的数交换。先手希望最终序列字典序尽量小，后手则相反。两人都绝顶聪明，求最终序列。\(1\len\le2000,\space1\lea_i\le10^8\)考虑不互质的两个数\(a_i,a......
广州六校联考2024-19
[题意]已知集合\(A\)中含有\(3\)个元素\(x,y,z\)，同时满足：\(x<y<z\)\(x+y>z\)\(x+y+z\)为偶数那么称集合\(A\)具有性质\(P\)。已知集合\(S_n=\{1,2,...,2n\}(n\inN^,n\geq4)\)。对于集合\(S_n\)的非空子集\(B\)，若\(S_n\)中存在三个互不相同的元素\(a,b,c\)，使得\(a+b,b+c......
Win10专业版系统永久升级密钥
Windows10专业版是Windows10操作系统的商业版本。它包含Windows10家庭版的所有功能，并添加了一些适合小型企业和组织的功能。Windows10专业版的功能包括：设备加密：使用BitLocker加密设备上的数据，以防止未经授权的访问。远程桌面：从另一台设备远程连接到您的PC。组......
10django
作业（二次删除确认）#ajax结合sweetalert（ajax用于页面不刷新也可以提交数据，sweetalert是帮助美化删除二次确认的）1.下载源码只需要到dist文件夹内的css和js即可2.拷贝使用官网提供的案例代码3.添加配置参数新增等待特效<divclass="container"><divclass="row"......
Toyota Programming Contest 2024#3（AtCoder Beginner Contest 344）
C先预处理出三个数组能拼出的数，存放到map中。查询的时候只需要看这个数是否出现在map里即可。时间复杂度\(O(n^3\logv+Q\logv)\)，\(n\leq100\)，\(\logv\)是map的时间复杂度。#include<bits/stdc++.h>usingnamespacestd;#defineintlonglongconstintN=3e......
软件工程日报5 2024.03.11
第一天第二天第三天第四天第五天所花时间（包括上课）6小时5小时4小时4小时六小时代码量（行）300350200300 50博客量（篇）1111 1所学知识了解安卓相关数据库的知识，下载安装了matlab学习了相关安卓的布局展示了解activity之间的相互跳转以注册了......
Axure RP 10：让原型设计更快、更直观、更智能 mac版
AxureRP10是一款强大的原型设计工具，它能够帮助设计师快速创建高保真、交互式的原型，从而更好地展示和测试设计方案。这款软件凭借其直观易用的界面和丰富的功能，已经成为了许多设计师的首选工具。→→↓↓载AxureRP10forMac 首先，AxureRP10提供了丰富的组件库和样式设......
代码随想录算法训练营第四十三天|● 1049. 最后一块石头的重量 II ● 494. 目标和
最后一块石头的重量 II 题目链接：1049.最后一块石头的重量II-力扣（LeetCode）思路：尽可能将石头分成重量相近的两堆，结果一定最小，因此问题可以转换为分割子集。dp[i]的含义是背包容量为i的背包能装下的最大重量，由于题目中最大重量是15000，所以我们申请15001的vector。注意，结果不......
2024新版Axure RP大数据可视化大屏模板68套及通用组件+PSD文件
AxureRP数据可视化大屏模板及通用组件库2024新版重新制作了这套新的数据可视化大屏模板及通用组件库V2版。新版本相比于V1版内容更加丰富和全面，但依然秉承“敏捷易用”的制作理念，这套作品也同样延续着我们对细节的完美追求，整个设计制作过程我们同样投入了大量的精力。作品制作前......

2024-3-10

Towards Unified Text-based Person Retrieval:A Large-scale Multi-Attribute and Language Search Benchmark（SOTA）

1 INTRODUCTION

2. 方法

1. APTM Architecture

2.Attribute Prompt Learning

相关文章

赞助商

阅读排行