首页 > 其他分享 >检测与识别人与目标之间的互动

检测与识别人与目标之间的互动

时间:2022-10-07 10:32:25浏览次数:82  
标签:动作 检测 bh 目标 三元组 识别 互动 分支


深度学习有在新的高度得到大家的认可,并驱使更多的爱好者去学习、去探索,已不仅仅在图像、视频及语音领域得到重视。现在在SLAM、NLP、医学、经济学等领域都得到愈来愈多的研究者的重视,今天我们就和大家说说人与物体目标之间的互动检测识别,有兴趣的您可以接下来慢慢享受~


01 概述

——————

要理解视觉世界,机器不仅必须识别单个目标,还必须识别它们是如何交互的。人类往往处于这种相互作用的中心,而检测人与目标之间的相互作用是一个重要的实践和科学问题。

在本次分享中,其提出了在挑战日常照片中检测⟨人类、动词、目标⟩三元组的任务。提出了一种新的模型,它是由一种以人为中心的方法驱动的。

具体的假设是,一个人的外表-他们的姿势、衣服、动作-是一个强有力的线索,可以帮助他们定位与互动的物体。为了利用这一线索,模型学会了根据被检测的人的外观来预测目标对象位置上的特定动作密度;模型还联合学习检测人和物体,并通过融合这些预测,在一个干净的、联合训练的端到端系统中,有效地推断出三元组之间的交互,称之为InteractNet

对COCO(V-COCO)和HICO-Det数据集中最近引入的动词验证了该方法,在这些数据集中展示了令人信服的结果。

检测与识别人与目标之间的互动_三元组

那接下来开始我们今天的主题:

02 背景

—————————

对个体实例的视觉识别,例如,检测对象和估计人的行动/姿势,由于深度学习的视觉表现,已经得到了显著的改进。然而,识别个体对象只是机器理解视觉世界的第一步。要了解图像中发生的情况,还必须识别各个实例之间的关系。在这项工作中,我们将重点放在人与人之间的互动。

检测与识别人与目标之间的互动_目标对象_02

提出了一种以人为中心的人机交互识别模型。中心观察是,一个人的外表,它揭示了他的动作和姿势,对于推断交互的目标对象可能在哪里是非常有用的(如上图B)。因此,对目标对象的搜索空间可以通过这种估计条件来缩小。虽然经常检测到许多对象(如上图A),但推断的目标布局可以帮助模型快速选择与特定操作关联的正确对象(如上图C)。

于是,将这一思想作为一个以人为中心的识别分支在Fast R-CNN框架中实现。具体来说,在与人相关的感兴趣区域(ROI)上,该分支对动作的目标对象位置执行动作分类和密度估计。密度估计器预测每种行为类型的四维高斯分布,它模拟目标对象与人的可能相对位置。这种预测完全基于人类的外表。

这个以人为中心的识别分支,以及一个标准的对象检测分支和一个简单的两两交互分支(后面描述),构成了一个可以联合优化的多任务学习系统。

03 方法

—————————

我们现在开始描述检测人-对象交互作用的方法。

目标是检测和识别三元组的形式⟨人类,动词,对象⟩。要检测三元组的交互,我们必须准确地定位包含人和目标的框,以关联交互对象(分别由bh和bo表示),以及识别正在执行的操作(从A行为中选择)。

提出的解决方案将这个复杂和多方面的问题分解成一个简单和可管理的形式。其扩展了Faster R-cnn目标检测框架,增加了一个以人为中心的分支,该分支对行为进行分类,并估计每个行为在目标位置上的概率密度。

以人为中心的分支利用Fast R-CNN提取的特征进行目标检测,其边缘计算是轻量级的。具体来说,给定一组候选框,Fast R-CNN为每个框输出一组对象框和一个类标签。模型通过给候选人/对象框bh、bo和动作a分配一个三元组得分s来扩展这一点。为此,将三元组分数分解为四个项:

检测与识别人与目标之间的互动_目标检测_03

接下来,将讨论每个组件,然后是一个扩展,它将动作分类输出s替换为一个专门的交互分支,该分支根据人和对象的外观为动作a输出评分。最后给出了训练和推理的细节。下图展示了整个框架中的每个组件。

检测与识别人与目标之间的互动_目标对象_04

  • 目标检测

网络的目标检测分支,如上图(A)所示,与Faster R-CNN完全相同。首先,使用区域候选网络(RPN)生成目标候选。然后,对于每个候选框b,使用RoiAlign提取特征,并执行目标分类和边界盒的回归,以获得一组新的框,其中每个框都有相关的分数(如果将框分配给Person类别,则为sh)。这些新框仅在推理时使用;在训练期间,所有分支都使用RPN候选框进行训练。

  • 行为分类

以人为中心的分支的第一个角色是为每个人的框、bh和动作a分配一个行为分类得分sah。就像在目标分类分支中一样,使用RoiAlign从bh中提取特征,并预测每个动作a的得分。由于人类可以同时执行多个动作(例如坐姿和饮料),输出层由用于多标签动作分类的二进制sigmoid分类器组成。训练目标是最大限度地减少真实动作标签与模型预测的得分之间的二元交叉熵损失。

  • 目标定位

以人为中心的分支的第二个角色是根据人的外观(同样表示为从bh集合的特性)来预测目标的位置。然而,仅根据bh的特征来预测精确的目标位置是一项具有挑战性的工作。

相反,本次的方法是预测可能位置上的密度,并将此输出与实际检测目标的位置一起用于精确定位目标。将目标物体位置上的密度建模为一个高斯函数,该函数的均值是根据人的外观和正在执行的动作来预测的。形式上,以人类为中心的分支预测,目标的四维平均位置给定人类边界框bh和动作a。然后,将目标定位写成如下:

检测与识别人与目标之间的互动_目标对象_05

下图可视化了目标位置上的预测分布,例如人工/动作对。

正如我们所看到的,下图所示描述的黄色虚线框是从bh和a推断出来的,没有直接访问目标的权限。

检测与识别人与目标之间的互动_三元组_06

从直觉上讲,模型的公式是基于这样一个假设,即从bh计算的特征包含指向某一动作目标的强信号,即使该目标在bh之外。

我们认为,这种“outside-the- box”回归是可能的,因为人的外表为目标位置提供了强有力的线索。此外,由于这一预测是特定于行为和具体实例的,即使我们使用单峰分布来建模目标位置,模型的公式也是有效的。后面我们讨论了该方法的一个变体,它允许我们有条件地处理多模态分布并预测单个动作的多个目标。

  • 交互识别

以人为中心的模型根据人的外表来评分动作。虽然有效,但这并没有考虑到目标的外观。为了提高模型的识别能力,并展示框架的灵活性,可以将SAH替换为交互分支,该分支基于人和目标的外观来记分动作。我们使用s来表示这个替代项。

04 多任务训练

——————————

我们将学习人-对象交互作为一个多任务学习问题:上图所示的所有三个分支都是联合训练的。

总体损失是模型中所有损失的总和,包括:

  • 目标检测分支的分类和回归损失;
  • 以人为中心的分支的行为分类和目标定位损失;
  • 交互分支的行为分类损失。

这与我们在前面描述的级联推理形成了对比,其中目标检测分支的输出被用作以人为中心的分支的输入。

采用以图像为中心的训练。所有的损失都是在RPN候选和真实框上进行的,就像在Faster R-CNN中一样。从目标检测分支的每幅图像中抽取最多64个边界框,正负比为1:3。以人为中心的分支最多在与人类类别相关联的16个框bh上计算(即,它们的IOU与一个真实人框重叠为≥0.5)。相互作用分支的损失仅在正例子三元组(即⟨bh,a,bo⟩必须与真实互作用三元组相关联)上计算。所有损失项的权重均为1,但以人为中心的分支中的行为分类项的权重为2,实验发现这一项的性能更好。

05 Cascaded Inference

———————————————

在推理中,我们的目标是根据S找到高分三元组。虽然原则上这具有O(N2)复杂度,因为它需要对每对候选框打分,但提出了一种简单的级联推理算法,其主要计算具有O(N)复杂度。

目标检测分支:首先检测图像中的所有对象(包括Person类)。将非极大抑制(NMS)的IOU阈值设置为0.3应用于分数高于0.05的框(保守地设置为了保留大多数目标)。这一步产生了一组新的更小的n个框b,分数为s等等。与训练不同,这些新框用作其余两个分支的输入。

人类中心分支:接下来,将以人为中心的分支应用于所有被归类为人类的检测对象。对于每个动作a和检测到的人类边界框bh,计算s,分配给a的分数,以及μ,预测的目标位置相对bh的平均偏移量。这个步骤的复杂性为O(N)。

交互分支:如果使用可选的交互分支,必须计算每个动作的s,o和一对框bh和bo。为此,首先独立的计算每个框bh和bo的两个动作分类heads的逻辑,即O(N)。然后,为了得到分数s,o,这些逻辑被求和,并通过一个sigmoid。虽然最后一步是O(N2),但实际上它的计算时间可以忽略不计。

06 实验

———————————————

检测与识别人与目标之间的互动_目标检测_07

在V-COCO测试集上的结果

检测与识别人与目标之间的互动_目标对象_08

All detected triplets on two V-COCO test images

检测与识别人与目标之间的互动_目标对象_09

InteractNet在测试图像上的结果。每个子个体可以采取多个操作并影响多个对象。

其他方法的比较:

检测与识别人与目标之间的互动_目标检测_10

V-COCO试验的详细结果。为每个动作显示两个主要基线和InteractNet。在[13]中定义了26个动作,由于3个动作(cuteathit)涉及两种目标对象(instrument and direct object),因此有26项。在AProle上大胆地展示了领先的项。

检测与识别人与目标之间的互动_目标对象_11

检测与识别人与目标之间的互动_目标检测_12

False positive detections of our method

检测与识别人与目标之间的互动_三元组_13

在HICO-DET测试集上的结果


文章下载地址:

​https://pan.baidu.com/s/1B5f4zt4FttrKHb6LXM4fGQ​

如果想加入我们“计算机视觉战队”,请扫二维码加入学习群,我们一起学习进步,探索领域中更深奥更有趣的知识!

检测与识别人与目标之间的互动_目标检测_14


标签:动作,检测,bh,目标,三元组,识别,互动,分支
From: https://blog.51cto.com/u_15726357/5734269

相关文章

  • 这样可以更精确的目标检测——超网络
    暑假的“尾巴”很多人都抓不住了,因为不知不觉,新的学期要开始了,几家欢喜几家愁,但是会想起学生时代的我,还是特征憧憬新的学期到来,那种激动的心情无法用美丽的辞藻去形容,在此,也......
  • 哇~这么Deep且又轻量的Network,实时目标检测
    最近挺对不住关注“计算机视觉战队”平台的小伙伴,有段时间没有给大家分享比较硬比较充实的“干货”了,在此向大家表示抱歉,今天抽空之余,想和大家说说目标的实时检测。论文:​​......
  • 百度网盘电脑端如何识别分享链接
    通过好友分享,发现在电脑端根本收不到可以直接下载的文件:  2、点击文件库才会将好友对话中的文件分享显示出来。  文件库中的内容如下:  然后就可以直接下载......
  • 【自然语言处理(NLP)】基于LSTM的谣言检测
    【自然语言处理(NLP)】基于LSTM的谣言检测作者简介:在校大学生一枚,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产业实践资源......
  • 【Python】计算机视觉 手掌图片穴位识别(二)
    ​​返回至系列文章导航博客​​1简要介绍看前说明:此方法可能有一定的缺陷,但是我认为有一定的实现可能所以做了这个板块。倘若有专业的中医医生或者相关工作者对此有建议或......
  • 对比python学julia(第四章:人工智能)--(第二节)人脸识别
    2.1. 项目简介人脸识别是基于人的脸部特征信息进行身份识别的一种图像识别技术。使用0PenCV进行人脸识别的过程如下。(1) 针对每个识别对象收集大量的......
  • 尺度不变人脸检测器(S3FD-Single Shot Scale-invariant Face Detector)
    今天讲尺度不变人脸检测前之前,我想讲解下一位热心研究者的问题,可以简单讲解下,希望也可以帮助其他读者,谢谢!这样的人脸尺度怎么去实现的,其实很简单,如果你有详细读过Spatialpy......
  • 这样可以更精确的目标检测——超网络
    暑假的“尾巴”很多人都抓不住了,因为不知不觉,新的学期要开始了,几家欢喜几家愁,但是会想起学生时代的我,还是特征憧憬新的学期到来,那种激动的心情无法用美丽的辞藻去形容,在此,也......
  • 细粒度特征提取和定位用于目标检测(附论文下载)
    计算机视觉研究院专栏作者:Edison_G近年来,深度卷积神经网络在计算机视觉上取得了优异的性能。深度卷积神经网络以精确地分类目标信息而闻名,并采用了简单的卷积体系结构来降低......
  • 利用TRansformer进行端到端的目标检测及跟踪(附源代码)
    计算机视觉研究院专栏作者:Edison_G现存的用检测跟踪的方法采用简单的heuristics,如空间或外观相似性。这些方法,尽管其共性,但过于简单,不足以建模复杂的变化,如通过遮挡跟踪。公......