首页 > 其他分享 >TALL: Temporal Activity Localization via Language Query

TALL: Temporal Activity Localization via Language Query

时间:2023-10-07 15:57:37浏览次数:35  
标签:视频 片段 via 提取 Language Localization 特征 上下文 文本

1 introduction

确定任务:TALL(Temporal Activity Localization via Language):基于文本的时间活动定位,具体来说就是给定给定一个未修剪的视频和一个自然语言查询,目标是确定视频中所描述活动的开始和结束时间。

将视觉和文本特征嵌入到公共空间以获得更好效果,但是这样对齐任务(alignment task)更难了,并且对于提取视觉特征的模型和如何预测开始和结束的位置的高精度方法都不清楚。

为了解决这些问题,设计一个跨膜态处理模块CRTL,CNN提取视频特征,LSTM提取文本特征,对两部分特征进行元素加、乘、全连接的简单的多模态处理。

2 相关工作

Action classification and temporal localization

动作分类和时间定位

Sentence-based image/video retrieval

基于文本的图像/视频检索

Object detection

目标检测

3 模型方法

模型如下图:

系统结构图

分四个部分:

  • 视频特征提取
    • 视频方面采用滑动窗口,对视频\(V\)进行分割成一组视频片段(video clips)\(C=\{(c_i,t^s_i,t^e_i)\}^H_{i=1}\),其中H为视频总片段数,\(t^s_i,t^e_i\)分别是一个视频片段\(c_i\)的开始和结束时间。
    • 定义视觉编码器为\(F_{vc}(c_i)\),它将一个\(c_i\)映射为特征\(f_v\),其维度为\(d_s\)。在\(F_{vc}(c_i)\),使用特征提取器\(E_v\)提取片段级特征向量,其输入为\(n_f\)帧,输出为维数\(d_v\)的向量。对于一个视频片段\(c_i\),我们认为它自己(作为中心片段)和它周围的片段(作为上下文片段)\(c_{i,q},q∈[-n,n]\),\(j\)是片段的位移,\(n\)是位移边界。
    • 我们从每个片段(中心片段和上下文片段)中统一采样\(n_f\)帧。中心片段的特征向量记为\(f^{ctl}_v\)。对于上下文片段,我们使用池化层来计算前上下文特征\(f^{pre}_v = \frac{1}{n}\sum^{-1}_{q=-n} {E(c_{i,q})}\)和\(f^{post}_v = \frac{1}{n}\sum^{n}_{q=1} {E(c_{i,q})}\)。前上下文特征和后上下文特征是分开的,因为活动的结束和开始可能是完全不同的,两者对于时间定位都是至关重要的。将\(f^{ctl}_v\), \(f^{pre}_v\) 和\(f^{post}_v\)串联起来,然后线性变换为维数为\(d_s\)的特征向量\(f_v\),作为片段\(c_i\)的视觉表示。
  • 文本特征提取
    • \(F_{se}(s_j)\)为文本编码器,将文本描述\(s_j\)转换到维度为\(d_s\)的嵌入空间(跟视频相同)。
    • 具体而言,使用句子嵌入提取器\(E_s\)提取句子级嵌入\(f'_s\),然后使用线性变换层将\(f'_s\)映射到维度为\(d_s\)的\(f_s\),与视觉表示\(f_v\)相同。
    • 使用LSTM和现成的Skip-thought编码器
  • 多模态处理模块
    • 输入为\(f_v\)和\(f_s\),其维数都是\(d_s\)
    • 使用向量加法,向量乘法,向量拼接,然后一个FC组合两种模式的信息。
    • 用公式表示如下:
      \(f_{sv}=(f_s\times f_v)||(f_s+f_v)||FC(f_s||f_v)\)
  • 时间回归网络
    时间定位回归网络以多模态表示 fsv 作为输入,并具有两个兄弟输出层。 第一个输出句子 sj 和视频剪辑 ci 之间的对齐分数 csi,j。 第二个输出剪辑位置回归偏移。 我们设计了两个位置偏移,第一个是参数化偏移:t = (tc,tl),其中tc和tl分别是参数化中心点偏移和长度偏移。 参数化如下:

4 实验

  • TACoS训练集
    img

  • Charades-STA
    img

5 总结

贡献主要定义任务

方法如下:

  • 滑动窗口提取视频特征
  • word2vec+LSTM提取文本信息
  • 向量加、乘、FC拼接融合多模态信息
  • 时间回归网络得到预测片段开始和结束

标签:视频,片段,via,提取,Language,Localization,特征,上下文,文本
From: https://www.cnblogs.com/mobbu/p/17746499.html

相关文章

  • 论文解读:HybridCR: weakly-supervised 3D point cloud semantic segmentation via hybr
    HybridCR:weakly-supervised3Dpointcloudsemanticsegmentationviahybridcontrastiveregularization基于混合对比学习正则化约束的增强方法,Li等人(2022a)使用极少标注(0.03%)在室内点云数据集上获得的分割精度为全监督方法的78.3%。是第一个利用点一致性并以端到端方式采用......
  • C. Assembly via Minimums
    C.AssemblyviaMinimums找规律首先根据题意,B组数据的顺序是完全没有关系的,因为可以随意打乱,所以a组的值一定在b组里找,这不是废话。其次我们观察数据可知,最小值出现的次数是n-1,比较好理解的方法是:分别把最小值放在开头和结尾,因为要取最小值所以在B组出现的次数一定是n-1。接......
  • [论文阅读] Anomaly detection via reverse distillation from one-class embedding
    Anomalydetectionviareversedistillationfromone-classembeddingIntroduction在知识蒸馏(KD)中,知识是在教师-学生(T-S)对中传递的。在无监督异常检测的背景下,由于学生在训练过程中只接触到正常样本,所以当查询是异常的时候,学生很可能会产生与教师不一致的表示。然而,在实际情......
  • 【CVPR2022】Shunted Self-Attention via Multi-Scale Token Aggregation
    来自CVPR2022基于多尺度令牌聚合的分流自注意力论文地址:[2111.15193]ShuntedSelf-AttentionviaMulti-ScaleTokenAggregation(arxiv.org)项目地址:https://github.com/OliverRensu/Shunted-Transformer一、Introduction还是经典的ViT的历史遗留问题:ViT中的自注意力计算......
  • Training language models to follow instructions with human feedback
    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!NeurIPS 2022 Abstract将语言模型做得更大并不能从本质上使它们更好地遵循用户的意图。例如,大型语言模型可能生成不真实、有害或对用户毫无帮助的输出。换句话说,这些模型与其用户不一致。在本文中,我们展示了一种通......
  • Graph transduction via alternating minimization
    目录概符号说明GTAM交替优化求解WangJ.,JebaraT.andChangS.Graphtransductionviaalternatingminimization.ICML,2008.概一种对类别不均更鲁棒的半监督算法.符号说明\(\mathcal{X}_l=\{\mathbf{x}_1,\cdots,\mathbf{x}_l\}\),labeledinputs;\(\mathcal......
  • Python PIL 远程命令执行漏洞(via Ghostscript)
    目录1.1、漏洞描述1.2、漏洞等级1.3、影响版本1.4、漏洞复现1、基础环境2、漏洞分析3、漏洞验证1.5、深度利用1、反弹Shell说明内容漏洞编号PIL-CVE-2018-16509漏洞名称PythonPIL远程命令执行漏洞漏洞评级影响范围漏洞描述修复方案1.1、漏洞......
  • 《PROMPT2MODEL: Generating Deployable Models from Natural Language Instructions
    一、Introduction传统上,从零开始构建一个自然语言处理(NLP)模型是一项重大任务。一个寻求解决新问题的NLP从业者需要定义他们的任务范围,找到或创建目标任务领域的行为数据,选择合适的模型架构,训练模型,通过评估评估其性能,然后将其部署到实际应用中。Prompt2Modelisaframeworkfo......
  • 指令微调LLM进行推荐Recommendation as Instruction Following: A Large Language Mod
    原文地址:https://arxiv.org/abs/2305.07001本文作者将用户偏好、意图等构建为指令,并用这些指令调优一个LLM(3BFlan-T5-XL),该方法对用户友好,用户可以与系统交流获取更准确的推荐。INTRODUCTIONLLM是建立在自然语言文本上的,它不能直接适应基于行为数据的推荐系统。为了减少两者的g......
  • 自定义配置文件参数在application可以直接识别Not registered via @EnableConfigurati
    自定义配置文件参数在application可以直接识别Notregisteredvia@EnableConfigurationPropertiesormarkedasSpringcomponent看见很多开源项目的配置文件可以直接配置在application.yaml中,自己也想弄一个,怎么弄呢?这是我的demo,你正常ConfigurationProperties会报错Notregi......