标签：视频片段 Weakly Localization 特征标签 Temporal 模块交互

0.前言

相关资料：
- paper
- github
- 论文解读
论文基本信息：

领域：弱监督时序动作定位
发表时间：Arxiv 2023(2023.3.22)

1.针对的问题

　　伪标签生成是解决具有挑战性问题的一种很有前途的策略，但现有的大多数方法都局限于使用片段级分类结果来指导生成，而忽略了视频的自然时间结构也可以提供丰富的信息来辅助生成过程。

2.主要贡献

　　(1)提出了一种简单而有效的伪标签生成策略，通过推断片段-特征亲和度，利用时间变化来指导弱监督TAL生成高质量伪标签。

　　(2)设计了一种新的信息交互模块，通过建立视频内部和视频之间的联系来增强片段特征的判别。

　　(3)在两个广泛使用的数据集上进行了大量的实验，结果表明模型在THUMOS14和ActivityNet v1.3上分别达到46.8和25.8的平均mAP，显示了它的优越性。

3.方法

　　首先，亲和度推理模块利用时间相邻片段之间的亲和关系来生成初始的粗伪标签。然后，信息交互模块通过探索视频内部和视频之间的关系来增强片段特征的判别，从而细化粗标签。最后，利用信息交互模块生成的高质量伪标签来监督动作定位网络的训练。

　　模型结构如下：

　　首先，在base分支中，利用固定的预训练backbone网络(例如I3D)从输入视频的外观(RGB)和运动(光流)中提取T个片段特征。然后，采用一个可学习的分类头(由一个class-agnostic注意(CA)头和一个多示例学习(MIL)头组成)对每个片段进行分类，得到预测的TCAMs。然后，亲和度推理模块通过计算相邻片段特征对之间的差值生成亲和值，并根据得到的亲和度为这些片段分配初始粗标签{b_i}^T_i。随后，信息交互模块利用多层次注意力来探索视频内部和视频之间的关系，从而增强动作片段特征与背景和其他类特征的可分离性。最后，将输出的特征输入到分类头中，生成高质量伪标签作为base分支的监督信号。

　　亲和度推理模块 时间相邻片段的变化可以指示每个片段是属于前景还是背景，前景片段之间的变化较大，背景片段之间的变化较小，根据这个思想，先计算每对时间相邻片段特征{f_t₋₁, f_t}的亲和值τ_(t₋_1,t)，获得输入视频的亲和性集合τ，对亲和性集合τ进行降序排序，然后根据排序后的τ为每个片段分配初始粗伪标签B = {b_i}^T_i=1。选取排序得分前K的片段作为潜在前景，其余的作为潜在背景，分配伪标签的过程可表示为:

　　其中b_t= 1表示其对应的片段f_t属于前景候选，否则属于背景候选。由此得到粗糙的伪标签。

　　信息交互模块 亲和度推理可以看作是利用局部关系的一种类型，但非局部片段之间的关系仍未得到充分的研究。因此，作者提出了一个信息交互模块，通过探索视频内部和视频之间的关系来增强片段特征的判别性，提高生成的伪标签的细粒度质量。收集前景(b_i=1)和背景(b_i=0)候选的特征，分别形成F^a∈R^Ta×D和F_b∈R^Tb×D，其中F^a∪F^b= F, T ^a+ T ^b= T, T^a表示前景片段的个数，T^b表示背景片段的个数。

　　视频内信息交互。为了使前景和背景片段特征之间更加可分离，分别沿着通道和时间维度执行多级注意力，探索同一视频中前景、背景和视频片段特征之间的关系。首先，在squeeze-and-excitation模式中学习一个通道注意力，以生成特征^a∈R^Ta×D

　　其中⊗表示逐元素的乘法。θ是一个简单的多层感知器，由FC-ReLU-FC序列组成。第一个FC的权重设置为W₁∈R^D×(D/r)，第二个FC的权重设置为W∈R^(D/r)×D_，r是一个缩放因子。采用残差连接保持训练的稳定性。

　　然后，进行一个时间层面的注意力操作，以捕捉^a和F之间的全局上下文关系，如下面的等式:

　　其中表示矩阵乘法。通过整合这种多层次的注意力学习，得到一组判别片段特征^a∈R^T×D。

　　但是，F^b中包含的一些信息被忽略了，其中包含一些错误识别的前景片段或与动作相关的信息。因此，利用F^b中的信息可以帮助提高片段特征的多样性，同样通过等式(4)和等式(5)在F^b和F之间执行多级注意力以生成背景增强特征^b。等式(4)中的参数在F^a和F^b之间不共享。随后，应用动态混合操作来平衡^a和^b之间的贡献，得到增强的特征∈R^T×D如下:

　　其中σ表示权衡因子。

　　视频间信息交互。考虑来自同一类别视频的动作信息可以提供额外的线索，帮助提高片段特征的判别性质和生成的伪标签的质量。因此，作者设计了一个视频间交互模块，利用视频之间的相关性对同一类别的片段特征进行压缩，使不同类别的特征可区分。

　　首先，引入一个memory bank M∈R^C×N×D来存储训练过程中整个数据集的信息，其中C表示类的数量，N表示每个类存储的片段的数量，D表示维数。最初，使用分类头来预测前景候选的分数，并选择具有最高N个分类分数的片段来初始化内存M和分数。在第t次训练迭代时，为每个类选择得分较高的N个片段特征f_[c]^(t)来更新上一次迭代M^(t−1)_[c]的内存。这个过程可以表述为:

　　为了提高鲁棒性，采用动量更新策略来更新内存M，因此η按以下方式调整:

　　其中η₀为初始动量系数，e为当前epoch，e为总epoch，c为当前片段的类索引。同时，利用视频内交互模块中混合特征与内存M_[c]^(t)之间的时间级注意力运算，将整个数据集的类信息带入，可表示为:

　　最后，从视频信息交互模块中得到输出特征和。然后，将它们提供给分类头以输出两个TCAMs和，之后对它们进行求和，以获得^p作为伪标签，以监督base分支的学习。

可以看作是利用局部关系的一种类型，但非局部片段之间的关系仍未得到充分的研究。因此，我们提出了一个信息交互模块，通过探索视频内部和视频之间的关系来增强片段特征的判别，提高生成的伪标签的细粒度质量。

标签：视频,片段,Weakly,Localization,特征,标签,Temporal,模块,交互
From： https://www.cnblogs.com/lhiker/p/17386087.html

Weakly-Supervised Temporal Action Localization by Inferring Snippet-Feature Affinity概述

0.前言

1.针对的问题

2.主要贡献

3.方法

相关文章

赞助商

阅读排行