首页 > 其他分享 >【五期杨志】CCF-A(NeurIPS’21) VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, A

【五期杨志】CCF-A(NeurIPS’21) VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, A

时间:2022-12-16 16:56:38浏览次数:59  
标签:模态 Transformer Transformers 21 训练 丢弃 共享 NeurIPS

Akbari, Hassan, et al. "Vatt: Transformers for multimodal self-supervised learning from raw video, audio and text." Advances in Neural Information Processing Systems 34 (2021): 24206-24221.

  这篇论文针对如何利用大规模、无标签的多模态数据赋能Transformer问题,提出了一个使用Transformer架构从无标签数据中学习多模态表示的框架。现有的Transformer架构大多是应用在单模态及监督训练中,从而忽略了现实中更丰富的多模态数据,限制了它的应用范围。作者先分别研究三个模态不同的Transformer,以及尝试了共享一个Transformer的方法,然后通过对比学习的方法建立起不同模态的联系,进行自监督训练。

  本文的优点在于作者在扩展中直接让三个模态共享同一个Transformer骨干网络,共享权重,经过实验验证,可以取得与使用不同模态骨干网络相似的结果,可以降低模型的复杂性,提高其泛化性。并提出了一个DeepToken方法,随机的将输入的视频和音频标记进行丢弃,从而降低了Transformer 的训练复杂度。

  本文的不足在于无法处理缺失视频模态的数据,因为其模态的联系对齐是靠视频模态进行的。并且DropToken中是随机丢弃的,虽然可以降低训练的复杂性,但也可能会降低精度和性能,比如丢弃一些比较重要的特征,是不是可以对这个随机丢弃做一个限制。

2022年12月16日


标签:模态,Transformer,Transformers,21,训练,丢弃,共享,NeurIPS
From: https://www.cnblogs.com/FBprivacy/p/16987785.html

相关文章