人脸识别在LFW超越人的识别能力之后,就很少有重大的突破了,逐渐转向视频中人脸识别或人脸属性学习等方向。CV顶级会议的接受论文量也出现了逐渐平稳的趋势。
而行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。 给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合 ,可广泛应用于智能视频监控、智能安保等领域。
行人重识别为国内现在主要的研究方向之一,投稿量则在逐年递增。国内主要为 清华大学,北京大学,复旦大学,大工,中山大学,港中文,华科,西交,中科院,厦大等研究机构;国外为 悉尼科技,QMUL和UTSA等。行人重识别CV顶级会议的接受论文量稳步提升。
1、首先让我们从顶级会议录取量的角度分析
人脸识别论文数量 (按关键字检索 “face recognition“,"face verification")
CVPR2013: 9
ICCV2013: 11
CVPR2014: 7
CVPR2015: 8
ICCV2015: 2
CVPR2016: 5
CVPR2017: 6
ICCV2017: 8
行人重识别论文数量 (按关键字检索 “person re-identification”,"person search","person retrieval(Viper等)已无法提供全面评估,逐渐少用。
以上是造成行人重识别 在学界火的原因吧。
3、行人重识别常用 Large-scale 数据集
- DukeMTMC-reID
该数据集在杜克大学内采集,图像来自8个不同摄像头。该数据集提供训练集和测试集。 训练集包含16,522张图像,测试集包含 17,661 张图像。训练数据中一共有702人,平均每类(每个人)有23.5 张训练数据。是目前最大的行人重识别数据集,并且提供了行人属性(性别/长短袖/是否背包等)的标注。
- Market-1501
该数据集在清华大学校园中采集,图像来自6个不同的摄像头,其中有一个摄像头为低像素。同时该数据集提供训练集和测试集。 训练集包含12,936张图像,测试集包含19,732 张图像。图像由检测器自动检测并切割,包含一些检测误差(接近实际使用情况)。训练数据中一共有751人,测试集中有750人。所以在训练集中,平均每类(每个人)有17.2张训练数据。
- CUHK03
该数据集在香港中文大学内采集,图像来自2个不同摄像头。该数据集提供 机器检测和手工检测两个数据集。 其中检测数据集包含一些检测误差,更接近实际情况。平均每个人有9.6张训练数据。
4、未来可能拓展的研究课题
- Transfer learning。 在LFW上学好的人脸模型,在实际中可能不work。在行人重识别也有同样的问题。 如研究在 数据集 Market-1501(夏季清华国人)上训练好的模型,怎么应用到另一个数据集 DukeMTMC-reID(冬季杜克老外)
- 像人脸一样。 往属性学习/视频base的行人重识别转。
- 做更大更难的检索库,比如Market-1501 + 500K(更多干扰的候选行人)。
- 语言检索行人。通过自然语言的描述来找人。
行人特征聚类可视化来自[1]
[1] Zheng Z, Zheng L, Yang Y. A discriminatively learned cnn embedding for person re-identification arXiv preprint arXiv:1611.05666, 2016.
行人重识别:从哈利波特地图说起
一、本文的目的是提供一个行人重识别的简要概况。
为了方便/直观的理解这个问题,我们先来说两则相关的故事。一则阐明重识别问题的实际意义,一则故事说明重识别问题的难点。
- 重识别的应用:哈利·波特 在《阿兹卡班囚徒》中使用 实点图 (Marauder’s Map) 实时追踪并识别追踪人 (显示人名)。将这个应用转化一下,试想:如果在迪斯尼乐园/机场/大学校园里和孩子走散了,除了广播“xx小朋友你的家长在广播室等你”的被动方式。我们可以翻开 实点图就找到熊孩子。而实点图就可以通过重识别来实现:主动输入小朋友的照片,检索多个不同位置的摄像头下的当前帧,找到熊孩子的出现摄像头。最后联系摄像头的位置,就可以定位孩子了。这个应用同样也可以用来找小偷/保护vip等等。
- 重识别的难点:荷马史诗 (Odyssey iv:412),Mennelaus 被告知,如果想要众神息怒并平安回家,就要在特洛伊战争的回家路上抓到 Proteus,让他告诉自己躲避的方法。虽然Proteus变成了狮子,巨蛇,豹,甚至水和大树,Mennelaus最终还是在海边的海豹群中抓住了他,并知晓了自己平安回家的方法。这大概是最早的重识别的成功案例。对照西游记的话,那大概就是大师兄三打白骨精的故事了。重识别的难点在于,我们没有大师兄的火眼金睛。多个摄像头下拍摄行人的角度不同,图像中的行人可能72变。所以要正确判断的话,就要找到行人上的局部不变的part(比如:衣服颜色,衣服纹理,手提包,背包等等)。在计算机视觉中,常用的特征就有颜色直方图等等。
(DukeMTMC-reID 数据集的retrieval(2015), 2993–3003.
[14] Alexander Hermans, Lucas Beyer, and Bastian Leibe. 2017. In Defense of the Triplet Loss for Person Re-Identification. arXiv:1703.07737
[15] Yutian Lin, Liang Zheng, Zhedong Zheng, Yu Wu, and Yi Yang. 2017. Improving Person Re-identification by Attribute and Identity Learning. arXiv:1703.07220
[16] Tong Xiao, Hongsheng Li, Wanli Ouyang, and Xiaogang Wang. 2016. Learning deep feature representations with domain guided dropout for person reidentification. In CVPR.
[17] Zhedong Zheng, Liang Zheng, and Yi Yang. 2017. Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in vitro. arXiv:1701.07717
再次感谢知乎(酱油哥和郑哲东两位)!
如果有兴趣的您希望学习更多相关知识,请关注我们的公众号:计算机视觉战队(ComputerVisionGzq),我们也有自己的学习群,希望您的加入(在我们平台有加入学习群方式),谢谢!
标签:人脸识别,训练,数据,风口,图像,识别,行人,摄像头 From: https://blog.51cto.com/u_15726357/5734258