首页 > 其他分享 >Temporally Grounding Natural Sentence in Video

Temporally Grounding Natural Sentence in Video

时间:2023-10-22 20:38:31浏览次数:39  
标签:视频 片段 Natural TGN Temporally Video LSTM 交互 句子

Temporally Grounding Natural Sentence in Video

摘要:我们引入了一种有效且高效的方法,可以在长的、未修剪的视频序列中建立(即本地化)自然句子。 具体来说,提出了一种新颖的时间地面网络(TGN)来暂时捕获视频和句子之间不断变化的细粒度逐字交互。 TGN 基于所利用的逐字交互,对每帧结束的一组时间候选序列进行顺序评分,最后为与句子相对应的片段奠定基础。 与以滑动窗口方式分别处理重叠片段的传统方法不同,TGN 聚合历史信息并一次性生成最终的接地结果。 我们在三个公共数据集上广泛评估了我们提出的 TGN,与最先进的技术相比有了显着的改进。 我们通过消融研究和运行时测试进一步展示了 TGN 的一致有效性和效率。

img
图 1:(a) 视频自然句基础 (NSGV) 任务。 (b)基于公共空间的匹配方法以滑动窗口方式执行。 (c) 我们提出的时间地面网络(TGN)在单个处理过程中以多个尺度定位候选视频片段。 视频中的帧和句子中的单词密切交互,进行细粒度的逐帧匹配,为视频中的句子奠定基础。

1 introduction

我们研究了视频自然句基础(NSGV)的任务。 给定一个未修剪的视频和一个自然句子,目标是确定视频中与给定句子相对应的片段的开始和结束时间戳,如图 1 (a) 所示。 与其他视频研究相比,例如双向视频句子检索、视频吸引力预测和视频字幕,NSGV 不仅需要对句子和视频的特征进行建模,还需要对两种模态之间的细粒度交互进行建模,这更具挑战性。

最近,一些相关工作(Gao et al., 2017; Hendricks et al., 2017)利用视频序列上的一种时间滑动窗口方法来生成视频片段候选,然后将其独立组合(Gao et al., 2017) 或与给定的句子进行比较(Hendricks et al., 2017)以做出接地预测。 尽管现有的工作取得了可喜的成果,但其效果和效率仍然较低。 首先,现有方法将视频片段和句子投影到一个公共空间中,如图1(b)所示,其中生成的两个嵌入向量用于执行视频片段和句子之间的匹配。 这种匹配仅在全局片段和句子级别进行,表达能力不够,忽略了视频帧与句子中单词之间的细粒度匹配关系。 其次,为了处理候选片段的不同时间尺度和位置,需要在大量重叠片段和句子之间进行详尽的匹配。 因此,滑动窗口方法的计算量非常大。

为了解决上述两个限制,我们引入了一种新颖的时态地面网络(TGN)模型,这是第一个用于 NSGV 任务的动态单流深度架构(dynamic single-stream deep archi- tecture),它充分利用了视频帧和单词之间的细粒度交互。 句,如图1(c)所示。 TGN 按顺序处理视频帧,在每个时间步骤,我们都依靠新颖的多模式交互器来利用不断发展的细粒度逐字交互。 然后,TGN 根据生成的交互状态同时对一组多个尺度的时间候选进行评分,并最终定位与该句子相对应的视频片段。 更重要的是,我们提出的 TGN 能够逐帧分析未修剪的视频,而无需处理重叠的时间视频片段。

2 related work

2.1 Grounding Natural Language in Image

2.2 Grounding Natural Language in Video

3 Approach

给定一个长且未修剪的视频序列 \(V\) 和一个自然句子 \(S\),NSGV 任务是从 \(V\) 定位视频片段 \(V_s = \{f_t\}^{t_e}_{t=t_b}\),从 \(t_b\) 开始,到 \(t_e\)结束,其对应于并表达与给定的句子S相同的语义。为了执行基础,每个视频表示为\(V = \{f_t\}^{T}_{t=1}\),其中\(T\)是帧总数,\(f_t\)表示第\(t\)个视频帧的特征表示。类似地,每个句子表示为 \(S = \{w_n\}^{N}_{n=1}\),其中 \(w_n\) 是句子中第 \(n\)个单词的嵌入向量,\(N\) 表示单词总数。

img
图 2:我们提出的 TGN 模型的架构。 TGN 由三个模块组成。 视觉和纹理编码器分别聚合来自连续视频帧表示和句子的单词嵌入的上下文证据。 多模态交互器学习视频和句子之间的细粒度逐词交互。 接地器通过一次传递即可产生视频序列中句子的时间接地。

我们提出了一种新颖的模型,即 Temporal GroundNet (TGN),来解决 NSGV 问题。 如图 2 所示,TGN 由三个模块组成。 1)编码器:视觉和文本编码器分别用于组成视频帧表示和词嵌入。 2)交互者:多模态交互者学习视频和句子之间的逐帧交互。 3)Grounder:grounder 在一次传递中生成时间定位。 三个模块完全耦合在一起,因此可以以端到端的方式进行训练。

3.1 encoder

我们采用两个(LSTM)来独立地顺序处理两种不同的模式,即视频和句子。具体来说,一个 LSTM 对视频 V 进行顺序建模,产生隐藏状态 \(\{h^v_t\}^T_{t=1}\),而另一个 LSTM 处理句子 S 中的顺序单词,产生其相应的隐藏状态 \(\{h^s_n\}^N_{n=1}\)。 由于 LSTM 的自然行为和特征,\({h^v_t}^T_{t=1}\) 和 \(\{h^s_n\}^N_{n=1}\)都可以分别编码和聚合来自顺序视频帧表示和句子的词嵌入的上下文证据,同时抛弃不相关的信息。

3.2 Interaction LSTM (i-LSTM)

基于杠杆编码器产生的视频和句子的隐藏状态,我们设计了一个多模态交互器来执行视频和句子之间的逐帧交互。 首先,通过考虑句子隐藏状态在每个时间步与特定视频帧的关系来总结句子隐藏状态,从而生成特定于帧的句子特征。 然后,执行交互 LSTM(称为 i-LSTM)来聚合逐字交互。

3.2.1 Frame-Specific Sentence Feature

直接对编码器生成的剪辑级和句子级特征进行操作不能很好地利用视频和句子之间随时间演变的逐字关系。 受(Wang and Jiang,2016a;Feng et al.,2018)的启发,我们引入了一种新颖的特定于框架的句子特征,它自适应地总结了句子 \(\{h^s_n\}^N_{n=1}\) 的隐藏状态 第 t 个视频帧:

\[H^s_t = \sum ^N_{n=1}{\alpha^n_t h^s_n} \tag{1} \]

其中 \(H^s_t\) 表示第 \(t\) 个视频帧指定的概括句子表示。 在每个时间步 \(t\),我们利用隐藏状态 \(h^v_t\) 选择性地关注单词并相应地总结它们。 注意力权重 \(α^n_t\) 编码句子中第 \(n\) 个单词与第 $t \(个视频帧的对齐程度。 随着视频帧处理的进行,注意力权重相对于当前视频帧动态变化。 这样,生成的特定于帧的句子特征\){Hs_t}T_{t=1}$ 考虑了所有视频帧和句子中所有单词之间的逐帧关系。

由于帧特定句子特征的生成与后面的交互LSTM深度耦合,我们将在后面解释注意力权重\(α^n_t\)的计算。

3.2.2 Interaction LSTM (i-LSTM)

为了准确地理解视频中的句子,需要对视频和句子之间的多模态交互行为进行全面建模。 以前的多模态交互方法仅限于串联(Zhu et al., 2016)、元素乘积或求和(Gao et al., 2017)和双线性池(Fukui et al., 2016)。 这些方法的表达能力不够,因为它们忽略了视频和句子之间不断发展的细粒度交互,特别是逐字交互。 在本文中,我们提出了一种新颖的多模态交互模型,由 LSTM 实现。 我们将其称为交互 LSTM (i-LSTM),它逐帧顺序处理视频序列,与句子中的单词进行深度交互。

为了很好地捕捉视频和句子之间复杂的时间交互,在每个时间步 t,i-LSTM 的输入是通过连接第 t 个视频隐藏状态 \(h^v_t\) 和第 t 个帧特定状态形成的。 句子特征\(H^s_t\)为:\(r_t = h^v_ \| H^s_t\)。 然后将 \(r_t\) 输入到 i-LSTM 单元以产生视频和句子之间的第 t 个中间交互状态:

\[h^r_t=i-LSTM(r_t,h^r_{t-1}), \tag{2} \]

其中 \(h^r_t\) 是产生的隐藏状态,对单词和视频帧之间的细粒度交互进行编码。 \(h^r_t\) 将进一步用于执行接地过程。 由于 LSTM 的固有属性和特点,与当前阶段相关的重要线索将被“记住”,而不重要的线索将被“遗忘”。

现在我们回到方程中注意力权重 \(α^t_n\) 的生成。 (1),基于上一步获得的视觉隐藏状态\(h^v_t\)和文本隐藏状态\(h^s_n\)以及产生的交互状态\(h^r_{t-1}\)。 广泛使用的软注意力机制(Xu et al., 2015a; Chen et al., 2017)用于以逐字方式生成注意力权重。 如前所述,i-LSTM 对句子和视频之间不断变化的逐字交互进行建模。 因此,第n个单词hsn和第t个视频帧hvt之间的注意力权重不仅取决于视频和句子的内容,还取决于它们的交互状态。 因此,我们设计一个网络来计算一个视频帧相对于每个单词的相关性得分:

\[\beta ^n_t = w^T \tanh{(W^S h^s_n + W^V h^s_t + W^R h^r_{t-1}+b)}+c \tag{3} \]

其中向量\(w\)、矩阵\(W^*\)、偏置向量\(b\)和偏置\(c\)是要学习的网络参数。 hrt−1 是 i-LSTM 在 t − 1 时间步的隐藏状态。 最终的词级注意力权重通过以下方式获得:

\[\alpha^n_t=\frac{\exp{(\beta^n_t)}}{\sum{^N_{j=1}(\exp{\beta^j_t})}} \tag{4} \]

获得的注意力权重\(α^t_n\)随后用于生成特定于帧的句子特征,如式(1)所示。

3.3 Grounder

在本节中,我们介绍了 grounder,它作用于 i-LSTM 生成的交互状态 hrt,以定位与句子相对应的视频片段。 我们提出的接地器在一次传递中工作,而不引入重叠的滑动窗口,从而导致快速的运行时间。 如图 2 所示,在每个时间步 t,接地者通过考虑在时间步 t 结束的多个时间尺度(Buch 等人,2017),有效地对一组 K 个接地候选者进行评分。 具体来说,我们对不同的数据集使用不同的 K,这是由某个数据集中所有真实基础的长度分布决定的。 为了简化下面的讨论,假设K个时间尺度的长度是一个具有公差δ的算术序列,并且所有时间候选都按长度递增排序。 换句话说,第k个候选的长度是kδ。 请注意,在时间 t 考虑的所有接地候选者都有固定的结束边界。

具体来说,在每个时间步 t,基础者将考虑将每个时间候选者分类为相对于给定句子的积极基础或消极基础。 考虑到多个时间尺度,接地者将生成与 K 个视觉接地候选集相对应的置信度分数 Ct = (c1t , c2t , ..., cKt ),全部在时间步 t 结束。 i-LSTM 在时间 t 生成的隐藏状态 hrt 表示句子和视频序列之间直到当前位置的交互状态,自然适合生成在时间步 t 结束的不同时间尺度的置信度得分。 在本文中,表示句子基础的置信度分数是由具有 sigmoid 非线性的全连接层生成的:

\[C_t=\sigma(W^K h^r_t + b^r_t) \tag{5} \]

其中 \(W^K\) 和 \(b^r_t\) 是相应的参数,\(σ\) 表示非线性 sigmoid 函数。

3.4 Training

\(X\) 中收集的 NSGV 训练样本是视频-句子对。 具体来说,每个视频 $V \(在时间上与一组句子注释相关联:\)A = {(S_i, t^b_i , t^e_i )}^M_{i=1}$,其中 $M \(是视频注释句子的数量,\)S_i$ 是句子描述 视频剪辑的 \(t^b_i\) 和 \(t^e_i\) 指示视频中的开始和结束时间。 每个训练样本对应于一个具有二进制条目的真实矩阵 \(y ∈ \mathbb{R}^{T×K}\)。 我们使用 $y^t_k $表示真实矩阵的第 \((t, k)\) 个条目。 $y^t_k $ 被解释为时间步 \(t\) 处的第 \(k\) 个基础候选是否对应于给定的自然句子。 具体来说,条目 $y^t_k $ 设置为 1,表示相应的视频片段(在时间步长 \(t\) 结束,长度为 \(kδ\))具有时间交集(IoU),其中\((t^b,t^e)\)大于阈值 \(θ\) 。 否则 $y^t_k $ 设置为 0。

对于训练对 \((V, S) ∈ X\) ,时间步 t 的目标由加权二元交叉熵损失 \(L(t, V, S)\) 给出:

\[-\sum ^K_{k=1} \omega^k_0y^k_t \log{c^k_t} + \omega^k_1(1-y^k_t)\log{(1-c^k_t)} \tag{6} \]

其中权重\(\omega^k_0\)和\(\omega^k_1\)是根据长度为kδ的训练集中正样本和负样本的频率计算的。\(y^k_t\)是真实值,\(c^k_t\) 表示我们提出的模型的预测结果。

我们的 TGN 在每个时间步 t 进行反向传播,以学习完全耦合的三个模块的所有参数:编码器、交互器和接地器。 所有训练视频-句子对X的目标定义为:

\[L_X=\sum_{(V,S) \in X}\sum^T_{t=1}L(t,V,S) \tag{7} \]

3.5 Inference

在推理阶段,给定一个测试视频 \(V\)和一个句子 \(S\),文本和视觉编码器首先分别为每个单词和视频帧生成隐藏状态。 然后,交互者按顺序逐帧浏览视频,以产生逐字交互状态。 在每个位置 \(t\),由接地者生成 \(K\) 维得分向量 \(C_t\)。 因此,在处理完视频中的最后一帧后,得到整个视频的\(T×K\)分数矩阵,矩阵中的第\((t,k)\)个条目表示视频片段结束于的概率 视频V中长度为\(kδ\)的位置\(t\)对应于句子\(S\)。最终,评估被简化为基于生成的分数对所有基础候选进行排序的问题。

4 Experiment

img

表 1:TACoS 上不同方法的性能比较。 每个指标条目的最佳性能以粗体突出显示。

img

表 2:ActivityNet Captions 上不同视觉特征的性能比较。 每个指标条目的最佳性能以粗体突出显示。

img

图 3:我们的 TGN 模型在具有不同视觉特征的 ActiveityNet Captions 数据集上的定性基础结果。

img

图 4:逐字注意力的可视化结果。 颜色越深,代表的注意力值越大。

img
表 5:以每秒帧数为单位的效率比较。

5 conclusion

在本文中,我们重点关注视频中自然句子基础的任务,这被认为可以提供对桥接计算机视觉和自然语言处理的全面理解。 为了完成这项任务,我们提出了一种端到端的时间地面网络(TGN),通过结合视频句子模式中不断发展的细粒度逐字交互,生成适合每个给定自然句子的视觉基础。 。 此外,TGN 执行效率很高,只需一次处理视频序列。 对三个真实世界数据集的大量实验清楚地证明了所提出的 TGN 的有效性和效率。

标签:视频,片段,Natural,TGN,Temporally,Video,LSTM,交互,句子
From: https://www.cnblogs.com/mobbu/p/17781008.html

相关文章

  • Cross-modal Moment Localization in Videos
    Cross-modalMomentLocalizationinVideos摘要:在本文中,我们探讨了时间时刻定位问题,即在未经剪辑的视频中定位自然语言查询所描述的视频时刻。这是一项通用但极具挑战性的视觉语言任务,因为它不仅需要对时刻进行定位,还需要对文本时间信息(如"第一次"和"离开")进行多模态理解,以帮......
  • umount.nfs4: /home/videorec/sharedir: device is busy
    用umount取消挂载时报错设备繁忙:deviceisbusy。原因是还有进程在打开目录下的文件,可以先杀死进程,再卸载,或者强制卸载 umount使用umount强制卸载,参数如下:-l --lazy,立即断开文件系统,所有清理后面执行。实际上就是延迟卸载,该挂载已从文件系统名称空间中删除,但它仍然安装,因......
  • uniapp 点击video全屏播放
    话不多说直接上代码<video:id="item.id"@play="playFullscreen(item.id)":src="$IMG_URL+item.video"></video>不要写点击事件@click不会生效的要写@play播放事件以上代码中由于作者需循环渲染video故id是动态的如果没有动态的需求也可以写死playFullscreen(id){ uni......
  • Topaz Video AI:智能重塑视频画质,引领视觉体验升级 Mac+win版
    探索TopazVideoAI如何通过智能技术重塑您的视频画质,全面提升视觉体验。→→↓↓载TopazVideoAImac/win版TopazVideoAI是一款领先的智能视频修复软件,专为提升视频画质而生。通过对AI技术的深度集成,它可以帮助您将老旧、低分辨率的视频进行智能修复和增强,带来焕然一新的视......
  • 问题:对控制器类型“VideoController”的操作“UserVideos”的当前请求在下列操作方法
      这应该是你写了两个UserVideos()方法,翻看一下你的VideoController控制器,如果是多写了一个UserVideos()方法把多写的那个注销删除就可以了。(在其他情况下如果遇到操作方法不明确或者定义不明确可以先看看是不是什么东西写重复了) ......
  • VideoChat笔记
    https://arxiv.org/pdf/2305.06355.pdf一个理解视频的大语言模型,跟视频里面内容可以随便问模型.还是老方法直接第三章走起.3.VideoChat: 直接看图: VideoChat分2个部分,一个是VideoChat-Text一个是VideoChatEmbedVideoChat-Text是把视频里面内容转化......
  • Road To Reality(Multiple valuedness, natural logarithms)
    RoadToReality(Multiplevaluedness,naturallogarithms)Addition-to-multiplication\(e^{a+b}=e^ae^b\)theinverseoftheexponentialfunction:\(z=\ln{w}\)if\(w=e^z\)Hence:\(\ln{ab}=\ln{a}+\ln{b}\)AspecialCartesianform(\(z=x+iy\)......
  • 计算机视觉算法中的视频摘要(Video Summarization)
    引言随着数字视频内容的爆炸式增长,如何高效地获取视频的关键信息成为了一个重要的问题。视频摘要(VideoSummarization)作为计算机视觉领域的一个重要研究方向,旨在通过自动化方法从长时间的视频中提取出关键的、代表性的内容,以便用户能够快速浏览和获取视频的核心信息。本文将介绍视......
  • natsort.natsorted()-用于自然排序(natural sorting)字符串列表。
    参考:https://natsort.readthedocs.io/en/stable/api.html#natsort.natsorted语法格式natsort.natsorted(seq:Iterable[T],key:Optional[Callable[[T],Union[natsort.utils.SupportsDunderLT,natsort.utils.SupportsDunderGT,None]]]=None,reverse:bool=False,alg:......
  • 提取DVD里面的audio和video
    Youcantry PazeraFreeAudioExtractor or AoAAudioExtractor Basic.Botharefree.Or DVDAudioExtractor ifyouwantmorefeatures.Ifyoureconverttomp3youwilllosequalitydependingontheaudiobitrateyouchoose.  Youcantryusing PgcDe......