Weakly-Supervised Temporal Action Localization with Multi-Modal Plateau Transformers 论文阅读
文章信息:
发表于:2024 CVPR workshop
Abstract
弱监督时序动作定位(WSTAL)旨在仅使用视频级别标注在未剪辑的视频中联合定位和分类动作片段。为了利用视频级别标注,大多数现有方法采用多实例学习范式,其中首先生成帧级/片段级动作预测,然后将其聚合以形成视频级别预测。尽管有尝试通过建模时间关系来改善片段级预测,但我们认为这些实现尚未充分利用此类信息。在本文中,我们提出了多模态平稳变换器( M 2 P T M^2PT M2PT)用于弱监督时序动作定位(WS-TAL),该方法同时利用片段之间的时间关系、跨数据模态的互补信息以及连续片段之间的时间一致性。具体而言, M 2 P T M^2PT M2PT为RGB和光流模态探索了一种双变换器架构,该架构使用自注意力机制对模态内时间关系进行建模,并使用交叉注意力机制对模态间时间关系进行建模。为了捕捉连续片段应被分配相同动作的时间一致性, M 2 P T M^2PT M2PT部署了一个平稳模型来优化动作片段的时间定位。在流行基准测试集上的实验结果表明,我们提出的 M 2 P T M^2PT M2PT达到了最先进的性能。
1. Introduction
时序动作定位(TAL)旨在识别动作实例的时间戳并对其动作类别进行分类。大多数现有工作通过使用完全标注的数据来训练模型,这些数据包括每个动作实例的时间戳(开始和结束位置)和类别标签[4, 20, 42]。TAL类似于目标检测,但它是在时间维度上定位和分类实例。与目标检测类似,TAL方法可以分为两阶段方法,即首先生成候选框然后再对其进行优化[1, 10],以及一阶段方法,该方法直接生成检测结果[6, 40]。
虽然取得了令人印象深刻的结果,但时序动作定位(TAL)方法需要完全标注的数据来训练模型。收集完全标注的训练数据既昂贵又耗时,特别是对于经常包含大量帧的视频而言。为了缓解这个问题,探索了弱监督时序动作定位(WS-TAL)以从仅具有视频级别标签(即视频内的动作类别;不提供动作实例的时间戳)的训练数据中学习[5, 8, 9, 26, 37]。由于缺少时间标注,现有的WS-TAL方法通常采用多实例学习(MIL)范式,即将每个视频视为一个包含未标注片段(实例)的有标签包[8, 9, 17]。虽然无法直接从单个片段的预测中学习,但可以通过聚合各个预测来获得视频级别的预测。
虽然时序动作定位(TAL)方法取得了显著成果,但它们依赖于完全标注的数据来训练模型。然而,收集这样的完全标注训练数据既昂贵又耗时,特别是在处理通常包含大量帧的视频时。为了克服这一挑战,研究者们探索了弱监督时序动作定位(WS-TAL),这种方法能够从仅包含视频级别标签(即视频中存在的动作类别,但不提供动作实例的具体时间戳)的训练数据中学习[5, 8, 9, 26, 37]。由于缺少详细的时间标注,现有的WS-TAL方法普遍采用多实例学习(MIL)框架,其中每个视频被视为一个包含多个未标注片段(实例)的有标签集合[8, 9, 17]。尽管无法直接从单个片段的预测中学习,但可以通过将各个片段的预测进行聚合来生成视频级别的预测。
在本文中,我们提出了多模态平稳变换器( M 2 P T M^2PT M2PT)来解决弱监督时序动作定位(WS-TAL)问题,通过广泛建模动作视频中的各种时间结构线索(如图1所示),即片段之间的时间关系、跨数据模态的互补信息以及连续片段之间的时间一致性。值得注意的是,虽然现有方法已经分别对这些时间结构线索进行了建模,但 M 2 P T M^2PT M2PT是首个在现代基于变换器的框架内同时利用所有这些线索的开创性工作。具体来说, M 2 P T M^2PT M2PT将从视频中提取的RGB和光流特征作为两种模态,并分别为这两种模态采用双变换器结构。每个单独变换器内的自注意力机制用于建模连续片段之间的时间关系,而不同模态之间的互补信息则通过跨模态交叉注意力机制进行建模。为了鼓励连续片段之间的时间一致性,即连续片段应该被分配相同的标签,我们探索了一个平稳模型[22]来优化动作片段的时间定位,并将优化结果作为伪标签来增强模型。事实上,据我们所知,这是首个用于WS-TAL任务的基于双变换器的模型。综上所述,我们的贡献主要包括:
- 首先,我们设计了一个多模态的Transformer模型,它以RGB和光流为模态,用自注意机制来描述模态内的时间关系,用交叉注意机制来描述模态间的时间关系。
- 第二,我们提出将平稳模型引入弱监督时序动作定位中,以提高时间定位动作片段的质量。
- 最后,我们提出的 M 2 P T M^2PT M2PT在两个流行的动作基准上实现了最先进的性能,即,THUMOS 14和ActivityNet1.2数据集。
2. Related Work
Fully-Supervised Temporal Action Localization (FSTAL).与动作识别不同,完全监督的时序动作定位(FS-TAL)更为困难,并且通常处理更长的未剪辑视频,这些视频可能包含多个动作实例。在完全监督的设置下,模型可以使用包含所有实例的时间戳和类别标签的数据进行训练。本质上,FS-TAL可以类比于目标检测,但其目标是在时间维度上“检测”实例。同样,FS-TAL也可以分为两阶段方法,即首先生成动作候选框,然后细化边界[1, 4, 10, 28, 34, 42],以及一阶段方法,该方法直接在视频中的片段上预测动作概率,并使用自下而上的机制将动作片段组合成动作段[6, 18, 40]。
Weakly-Supervised Temporal Action Localization (WSTAL).WS-TAL(弱监督时序动作定位)仅需要视频级别的标签进行训练,因此吸引了越来越多研究者的关注。UntrimmedNet [32] 首次提出了多实例学习损失,以解决未剪辑视频的分类问题。STPN [24] 在UntrimmedNet的基础上增加了稀疏性损失,以有效地区分背景片段,并提出了时间类别激活图(TCAM)来生成动作候选框。CO2 [11] 在WS-TAL任务中提出了一个跨模态网络,该网络构建了RGB特征和光流特征之间的关系,并过滤掉与任务无关的信息冗余。为了缓解缺乏足够时间标注的问题,一些工作利用伪标签来引导全监督学习,但这会导致许多误报的动作候选框,因为伪标签并不可靠。UGCT [37] 在伪标签上引入了不确定性损失,该损失会过滤掉高度不确定的伪标签,从而减少误报样本。RSKP提出了一种代表性的片段摘要和传播方法,该方法仅从代表性片段生成伪标签[12]。ASM-Loc使用了一个额外的不确定性预测模块,该模块明确地为每个片段输出一个不确定性分数,以进行加权[11]。
Transformer Models.基于Transformer 的架构[31]在建模长序列数据方面表现出了优异的性能,特别是在自然语言处理(NLP)领域。视觉Transformer (ViT)[7]将Transformer 引入计算机视觉领域,将主干网络从卷积神经网络(CNN)转变为Transformer 。DeiT[30]引入了几种训练策略,使ViT能够适应更小的ImageNet-1K数据集。CDTrans[35]在领域适应中提出了Transformer 的交叉注意力机制,并取得了最先进的性能。
与此不同的是,我们提出的多模态平稳变换器( M 2 P T M^2PT M2PT)旨在在基于Transformer 的框架内解决WS-TAL问题,该框架同时模拟片段之间的时间关系、数据模态之间的互补信息以及连续片段之间的时间一致性。
3. The Proposed Method
图1. 提出的网络概述,其中未剪辑视频的RGB和光流被输入到预训练的I3D网络中,以提取特征 X r / o \mathbf{X} _{r/o} Xr/o。然后,跨注意力Trans-I3D网络被用来提取特征 X r / o \mathbf{X} _{r/o} Xr/o。前者(跨注意力Trans-I3D网络)用于生成经过优化的潜在特征 Z r / o \mathbf{Z}_{r/o} Zr/o,这些特征包含了来自另一模态的互补信息。注意力单元为每个分支生成注意力权重,以过滤掉背景片段,并将特征连接起来进行分类。
3.1. Preliminary and Motivation
给定一个未剪辑的视频集 { V i } i = 1 N \{\mathcal{V}_i\}_i=1^N {Vi}i=1N,其中 N N N是视频的数量, i i i是序列样本的索引。视频级别的标签与之相关联,表示为 { y i } i = 1 N \{\mathbf{y}_i\}_{i=1}^N {yi}i=1N,其中 y i ∈ R C \mathbf{y}_i\in\mathbb{R}^C yi∈RC, C C C是动作类别的总数,而 y i , c \mathbf{y}_{i,c} yi,c表示动作 c c c在视频 V i \mathcal{V}_i Vi中的存在性。请注意,当输入视频中包含多个动作时, y i \mathbf{y}_i yi是一个多标签向量,并将使用 ℓ 1 \ell_1 ℓ1-范数进行归一化。
遵循最近的方法[5, 9, 11, 13, 24],首先,将每个视频 V i \mathcal{V}_i Vi分割成一系列不重叠的片段 { X 1 , ⋯ , X T } \{\mathcal{X}_1,\cdots,\mathcal{X}_T\} {X1,⋯,XT},其中 T T T是片段的数量。这些片段被输入到预训练的I3D网络[3]中,以分别为每个视频的RGB模态和光流模态生成特征表示 X r ∈ R T × D \mathbf{X}_r\in\mathbb{R}^{T\times D} Xr∈RT×D和 X o ∈ R T × D \mathbf{X}_o\in\mathbb{R}^{T\times D} Xo∈RT×D。请注意, r r r和 o o o分别代表RGB模态和光流模态, D D D表示特征的维度。
现有的WS-TAL方法分别利用了片段之间的时间关系[9, 24]和数据模态之间的互补信息[5, 11],而我们则通过具有自注意力和跨模态交叉注意力机制的变换器模型同时对它们进行建模。特别是,跨模态方法是为了缓解由[11]首次提出的信息冗余问题,而[5]则通过证据优化对其进行了扩展。然而,现有的跨模态方法忽略了片段级的关系。这促使我们为每个模态分支构建变换器结构,并通过交叉注意力机制实现跨模态。在[22, 27]中已经利用了平稳模型,但这两项工作都需要为每个动作实例提供一个带注释的种子帧,然而,在只有视频级别标签的弱监督设置中,这是不可行的。相反,我们采用平稳模型来细化检测到的动作实例,以获得更精确的伪标签。
因此,我们提出了一种新颖的多模态平稳Transformer ( M 2 P T \mathbf{M}^2\mathbf{PT} M2PT)网络,如图 1 \color{red}1 1所示。其目标是生成一组动作提议,每个提议都包含 ( t s , t e , c ) (t_s,t_e,c) (ts,te,c),其中 t s t_s ts和 t e t_e te分别是动作提议的起始和结束片段的时间戳,而 c c c表示动作类别。
3.2. Base Model
首先,我们介绍基础模型架构,以阐述WS-TAL(弱监督时域动作定位)框架的概述。遵循现有的双分支架构[11,37],我们的目标是训练一个特征嵌入架构 F e ( ⋅ ) \mathcal{F}_e(\cdot) Fe(⋅),以学习两个模态的更有效的潜在特征 Z r ∈ R T × D \mathbf{Z}_r\in\mathbb{R}^{T\times D} Zr∈RT×D和 Z o ∈ R T × D \mathbf{Z}_o\in\mathbb{R}^{T\times D} Zo∈RT×D,这些特征随后被拼接为 Z m = [ Z r , Z o ] ∈ R T × 2 D \mathbf{Z}_m=[\mathbf{Z}_r,\mathbf{Z}_o]\in\mathbb{R}^{T\times2D} Zm=[Zr,Zo]∈RT×2D,并输入到视频级动作分类器 F c ( ⋅ ) \mathcal{F}_{\mathrm{c}}(\cdot) Fc(⋅)中,以获得时间类别激活图(Temporal Class Activation Map, TCAM)的输出,如下所示:
其中, O c a m ∈ R T × C + 1 \mathbf{O}_\mathrm{cam}\in\mathbb{R}^{T\times C+1} Ocam∈RT×C+1包含 C + 1 C+1 C+1个维度,因为我们遵循现有工作[5,9,17],并将最后一个维度设置为背景。
随后,潜在特征 Z r \mathbf{Z}_r Zr和 Z o \mathbf{Z}_o Zo被输入到两个注意力单元 F a ( ⋅ ) F_a(\cdot) Fa(⋅)中,以分别生成注意力权重 a r ∈ R T \mathbf{a}_r\in\mathbb{R}^T ar∈RT和 a o ∈ R T \mathbf{a}_o\in\mathbb{R}^T ao∈RT。为了抑制 O c a m \mathbf{O}_{\mathrm{cam}} Ocam中的背景部分,我们将注意力权重 a m = 1 2 ( a r + a o ) \mathbf{a}_m=\frac12\left(\mathbf{a}_r+\mathbf{a}_o\right) am=21(ar+ao)进行融合,并获得抑制后的TCAM输出为:
其中,
⊗
\otimes
⊗表示沿时间维度的逐元素乘法。遵循大多数工作[11,12,15,24],多实例学习(MIL)损失
L
m
i
l
\mathcal{L}_\mathrm{mil}
Lmil是WS-TAL(弱监督时域动作定位)的基本损失函数,它可以通过以下方式推导得到视频级别的分类损失:
其中, p c a m / p ^ c a m \mathbf{p}_\mathrm{cam}/\hat{\mathbf{p}}_\mathrm{cam} pcam/p^cam分别是通过对 O cam \mathbf{O}_\text{cam} Ocam和 O ^ cam \hat{\mathbf{O}}_\text{cam} O^cam进行时间维度的前 k k k个池化得到的视频级别的预测分数。 L ce ( ⋅ , ⋅ ) \mathcal{L}_\text{ce}(\cdot,\cdot) Lce(⋅,⋅)定义为视频级别真实标签 y y y和预测标签之间的交叉熵损失函数。
基于MIL的方法[24, 32]在时域边界上的监督较弱且隐晦,这可以归因于缺乏足够的时域标注,因此性能不佳。为了进一步提高动作片段的定位性能,我们利用伪标签模块,并引入了一个带有不确定性估计的伪标签损失
L
pseudo
\mathcal{L}_\text{pseudo}
Lpseudo[9,37],以显式地监督TCAM输出
O
c
a
m
{\mathbf{O}}_{\mathrm{cam}}
Ocam,如下所示:
其中, u t u_t ut表示从 Z m Z_m Zm的一个卷积层中每个片段的不确定性值, τ \tau τ是超参数, o t ∈ R C + 1 \mathbf{o}_t\in\mathbb{R}^{C+1} ot∈RC+1是 O cam \mathbf{O}_\text{cam} Ocam中的一个片段, p ^ t ∈ R C + 1 \hat{\mathbf{p}}_t\in\mathbb{R}^{C+1} p^t∈RC+1表示片段级别的伪标签。请注意,我们参考了[9,37]的方法来生成伪标签,这是WS-TAL(弱监督时域动作定位)中的常见做法。受[11]的启发,注意力权重必须受到约束。因此,我们引入了 互学习损失 L m l {\text{互学习损失 }\mathcal{L}}_{\mathrm{ml}} 互学习损失 Lml来保证 a r \mathbf{a}_r ar和 a o \mathbf{a}_o ao之间的一致性:
其中,
ϕ
(
⋅
)
\phi(\cdot)
ϕ(⋅)表示截断输入梯度的函数,
L
m
s
e
(
⋅
,
⋅
)
\mathcal{L}_\mathrm{mse}(\cdot,\cdot)
Lmse(⋅,⋅)表示均方损失函数。此外,使用
ℓ
1
\ell_1
ℓ1归一化项
L
n
o
r
m
\mathcal{L}_{\mathrm{norm}}
Lnorm使注意力权重更加稀疏也是非常重要的:
考虑到 O c a m \mathbf{O}_\mathrm{cam} Ocam的最后一个向量是背景类别的概率分布(定义为 p b p_b pb),它应该与注意力权重的分布相反:
其中, ∣ ⋅ ∣ |\cdot| ∣⋅∣是绝对值函数。
综上所述,我们可以得到我们的基础模型的最终目标函数:
其中, λ 0 \lambda_0 λ0和 λ 1 \lambda_1 λ1是伪标签和正则化项的超参数。
3.3. Multi-Modal Plateau Transformers
不幸的是,WS-TAL(弱监督时域动作定位)方法生成的伪标签和注意力权重通常不可靠,并包含大量的噪声模式。为了缓解这一瓶颈,我们提出了一种多模态Transformer融合机制,以有效地捕获两个模态之间更多的互补信息,从而增强特征的泛化能力。为了进一步改进时间定位片段,我们探索了平稳函数[22]来细化时间注意力权重,使其在时间方向上呈现更连续的模式。
3.3.1 Multi-Modal Attentive Fusion Network
最近的大多数工作直接利用通道级串联特征进行特征细化和动作建模[8, 9, 17],这忽略了冗余信息的影响并产生了额外的噪声。[11]首先提出构建一种跨模态机制来过滤掉冗余信息,从而提高性能。然而,该方法在主模态分支上采用全局特征适应,而忽略了视频通常由不相关的背景片段主导,因此在全局合并过程中会损害相关的动作特征。此外,[11]忽略了来自不同模态的片段之间的时间相关性。
为了有效地探索RGB和光流模态之间的互补信息,我们开发了一种多模态Transformer架构,该架构通过两个片段级注意力图结合了自注意力Transformer和交叉注意力Transformer。通过这种方式,静态和动态信息之间最相似的部分被识别出来,并且通过这种机制可以过滤掉冗余的噪声。具体来说,在两个模态的RGB和光流分支中,定义了两个注意力图 M r ∈ R T × T \mathbf{M}_r\in\mathbb{R}^{T\times T} Mr∈RT×T和 M o ∈ R T × T \mathbf{M}_o\in\mathbb{R}^{T\times T} Mo∈RT×T作为软掩码,然后通过全局softmax进行归一化,以捕获两个模态之间最相似的动作片段。
遵循Transformer的设计,我们定义了三个变量(查询、键、值)为 Q r = X r W q r \mathbf{Q} _r= \mathbf{X} _r\mathbf{W} _{qr} Qr=XrWqr, K r = X r W k r \mathbf{K} _r= \mathbf{X} _r\mathbf{W} _{kr} Kr=XrWkr, V r = X r W v r \mathbf{V}_r=\mathbf{X}_r\mathbf{W}_{vr} Vr=XrWvr,以及 Q o = X o W q o \mathbf{Q}_o=\mathbf{X}_o\mathbf{W}_{qo} Qo=XoWqo, K o = X o W k o \mathbf{K}_o=\mathbf{X}_o\mathbf{W}_{ko} Ko=XoWko, V o = X o W v o \mathbf{V}_o=\mathbf{X}_o\mathbf{W}_{vo} Vo=XoWvo,其中 W q r \mathbf{W}_{qr} Wqr, W k r \mathbf{W}_{kr} Wkr, W v r \mathbf{W}_{vr} Wvr, W q o \mathbf{W}_{qo} Wqo, W k o \mathbf{W}_{ko} Wko, W v o ∈ R D × D \mathbf{W}_{vo}\in\mathbb{R}^{D\times D} Wvo∈RD×D是用于生成RGB和光流模态的查询 Q r / o \text{Q}_{r/o} Qr/o、键 K r / o \text{K}_{r/o} Kr/o和值 V r / o \mathbf{V}_r/o Vr/o的线性投影矩阵。最后,每个Transformer模块利用这些图来生成精炼的潜在特征:
其中,
W
r
\mathbf{W}_r
Wr和
W
o
\mathbf{W}_o
Wo是可学习的投影,
F
L
N
(
⋅
)
\mathcal{F}_{\mathrm{LN}}(\cdot)
FLN(⋅)是层归一化函数,
F
D
r
o
p
(
⋅
)
\mathcal{F}_\mathrm{Drop}(\cdot)
FDrop(⋅)和
F
M
L
P
(
⋅
)
\mathcal{F}_\mathrm{MLP}(\cdot)
FMLP(⋅)分别是dropout和MLP模块,
I
r
,
I
o
\mathbf{I}_r,\mathbf{I}_o
Ir,Io是RGB和光流的中间潜在特征。为了构建自注意力Transformer和交叉注意力Transformer,我们可以定义不同的
M
r
/
o
\mathbf{M}_{r/o}
Mr/o。对于自注意力Transformer,
M
r
=
Q
r
K
r
⊤
T
\mathbf{M}_r= \frac {\mathbf{Q} _r\mathbf{K} _r^\top }{\sqrt T}
Mr=T
QrKr⊤和
M
o
=
Q
o
K
o
⊤
T
\mathbf{M} _o= \frac {\mathbf{Q} _o\mathbf{K} _o^\top }{\sqrt T}
Mo=T
QoKo⊤;对于交叉注意力Transformer,
M
r
=
Q
o
K
r
⊤
T
\mathbf{M}_r= \frac {\mathbf{Q} _o\mathbf{K} _r^\top }{\sqrt T}
Mr=T
QoKr⊤和
M
o
=
Q
r
K
o
⊤
T
\mathbf{M} _o= \frac {\mathbf{Q} _r\mathbf{K} _o^\top }{\sqrt T}
Mo=T
QrKo⊤;图2(a)展示了双Transformer设计的比较。
图2. (a) 跨注意力和自注意力的机制,以及 (b) 提出的跨监督训练策略。
3.3.2 Temporal Localization Refinement via Plateau Modelling
由于WSTAL(弱监督时序动作定位)任务中没有提供具体的动作边界,现有工作[5, 12, 24]通常对am(注意力模型)应用一系列阈值来生成时序动作提议。然而,不幸的是,这些方法并没有捕捉到连续的动作模式,也就是说,一个动作片段应该具有非常相似的注意力权重。
为了进一步细化时间定位,我们提出了一种在 a m \mathbf{a}_m am上的平稳精炼分布函数,以便一个片段中每个片段的动作概率均匀分布。该分布的另一个期望属性是可微性,以便该函数可以通过 a m \mathbf{a}_m am中的分数进行调整[22]。具体来说,平稳拟合函数被定义为对未修剪视频片段 x x x上的平稳分布的概率密度进行建模,如下所示:
其中, F p ( ⋅ ∣ ⋅ ) \mathcal{F}_{\mathfrak{p}}(\cdot|\cdot) Fp(⋅∣⋅)是以平稳中心 t c t_c tc、宽度 ω \omega ω和边界陡峭度 ϱ \varrho ϱ为参数的平稳函数。该函数的值域为[0,1]。我们遵循[22]的方法,在 a m \mathbf{a}_m am上拟合平稳函数,以获得精细化的 t c , ω , ϱ t_c,\omega,\varrho tc,ω,ϱ,作为生成更精确的时序动作提议的基础:
如图 3 \color{red}3 3所示,灰色虚线表示从片段#48到片段#68的原始注意力权重 a m \mathbf{a}_m am的一段。完整的 a m \mathbf{a}_m am如图4(b)所示。为了构建平稳分布,我们首先对 a m \mathbf{a}_m am应用适当的阈值以获得多个动作提议及其相关的注意力权重(以粗体黑色标记为 a ^ m \mathbf{\hat{a}}_m a^m)。每个 a ^ m \mathbf{\hat{a}}_m a^m都将输入到等式(9)中,通过均方误差损失来拟合 F p \mathcal{F}_\mathrm{p} Fp,产生 t c t_c tc、 ω \omega ω和 ϱ \varrho ϱ。 F p \mathcal{F}_\mathrm{p} Fp替换 a ^ m \hat{\mathbf{a}}_m a^m作为新的注意力权重,并细化其时间尺度。在图3中,我们使用粉色虚线“前景平稳”来表示新的注意力权重,“w”代表 ω \omega ω,“c”代表 t c t_c tc。特别地, t c t_c tc位于 a ^ m \hat{\mathbf{a}}_m a^m中得分最高的片段附近, ω \omega ω约束宽度以过滤出背景片段,而斜率 ϱ \varrho ϱ则保留边缘动作片段。然而, ω \omega ω通常比实际动作尺度宽得多,并且会如图3中的“前景平稳”所示包含背景片段。我们引入背景注意力权重 b m \mathbf{b}_m bm(等于 1 − a m 1-a_m 1−am)。与 a m \mathbf{a}_m am相同,我们也首先对 b m \mathbf{b}_m bm应用阈值以获得背景提议,然后构建背景平稳分布,标记为“背景平稳”。因此,每个视频样本将有两种平稳分布,我们过滤掉“重叠”区域,并得出精细化的注意力权重(标记为“精炼平稳”)。
图3. Mechanism of plateau refinement.。与传统阈值方法相比,我们的细化方法采用了一种“膨胀-腐蚀”策略,该策略不仅能够过滤掉背景信息,还能够保留边缘动作边界。
图4.THUMOS 14中动作“掷锤”和“跳水”的两个定性案例的插图。在每个图中,行-(a)表示原始注意力权重,行-(B)示出了我们的平台精化的输出,并且行-(c)表示地面实况时间定位。
请注意,我们仅在图3中说明了一个动作提议,以便更直观地理解其基本原理。此方法也可以应用于多个动作提议。与传统的阈值方法相比,我们的“膨胀-腐蚀”平稳方法更加合理,因为它基于中心片段 t c t_c tc并以“ω”进行扩展。此方法将过滤掉负面信息,同时保留边缘动作片段。
3.4. Model Training Strategy
为了使模型训练能够很好地收敛,我们采用了两阶段训练机制:首先使用重构损失对Transformer块进行预训练,然后使用我们提出的框架对整个模型进行微调。
Stage 1. Warm-up Stage:虽然现有工作[24,32]直接采用了 X r \mathbf{X}_r Xr和 X o \mathbf{X}_o Xo并取得了相对较好的性能,但我们Transformer模块的目标是细化预训练的I3D特征。然而,基于Transformer的架构需要强烈的监督才能从头开始很好地训练,这意味着使用等式(7)从头开始初始化的注意力块可能会导致 Z r \mathbf{Z}_r Zr和 Z o \mathbf{Z}_o Zo的平凡解。为了提高训练的稳定性,我们引入了一个重构损失 L r e c \mathcal{L}_\mathrm{rec} Lrec来预训练特征嵌入函数 F e ( ⋅ ) \mathcal{F}_e(\cdot) Fe(⋅),如下所示:
这可以确保学习到的 Z r \mathbf{Z}_r Zr和 Z o \mathbf{Z}_o Zo不会远离 X r \mathbf{X}_r Xr和 X o \mathbf{X}_o Xo,从而不会破坏预训练特征中存在的有效信息。请注意, Z r \mathbf{Z}_r Zr和 Z o \mathbf{Z}_o Zo不会与 X r \mathbf{X}_r Xr和 X o \mathbf{X}_o Xo完全相同,因为我们仅使用有限的训练迭代次数对等式(10)进行优化以进行预热。详细信息见第4.2节。利用预训练的特征嵌入函数,然后我们使用较小的学习率通过等式(6)对整个流程进行微调。为了实现快速收敛,我们在这一阶段进一步应用了额外的协同活动相似性损失[25]。
Stage 2. Optimization Stage::由于我们有两种Transformer架构,我们提出了一种结合交叉注意力和自注意力的新优化策略。通过这两个注意力模块生成的伪标签,通过优化目标函数(等式(6))构建了如图2(b)所示的交叉监督机制。在交叉监督训练之后,迭代优化平稳细化(等式(9)),直到模型收敛或达到最大迭代次数。
4. Experimental Results
5. Conclusion
在这项工作中,我们提出了一种新颖的多模态稳定Transformers( M 2 P T M^2PT M2PT),用于解决弱监督时序动作定位(WS-TAL)问题。为了有效地利用视频中的时序结构,并同时减少由预训练的I3D网络引起的冗余信息,我们构建了跨注意力和自注意力模块,以对双流特征进行特征嵌入。为了提高动作定位的性能,我们还利用伪标签来迭代地细化潜在特征,并引入平稳函数来细化时序定位,从而提高伪标签的精度。在两个流行的动作基准测试集上的实验表明,与最先进的方法相比,我们提出的模型具有更高的有效性。
标签:模态,视频,Multi,Weakly,mathbf,动作,片段,Transformers,注意力 From: https://blog.csdn.net/weixin_44609958/article/details/142058399