【五期杨志】CCF-A(NeurIPS’21) VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, A

时间：2022-12-16 16:56:38浏览次数：59

标签：模态 Transformer Transformers 21 训练丢弃共享 NeurIPS

Akbari, Hassan, et al. "Vatt: Transformers for multimodal self-supervised learning from raw video, audio and text." Advances in Neural Information Processing Systems 34 (2021): 24206-24221.

这篇论文针对如何利用大规模、无标签的多模态数据赋能Transformer问题，提出了一个使用Transformer架构从无标签数据中学习多模态表示的框架。现有的Transformer架构大多是应用在单模态及监督训练中，从而忽略了现实中更丰富的多模态数据，限制了它的应用范围。作者先分别研究三个模态不同的Transformer，以及尝试了共享一个Transformer的方法，然后通过对比学习的方法建立起不同模态的联系，进行自监督训练。

本文的优点在于作者在扩展中直接让三个模态共享同一个Transformer骨干网络，共享权重，经过实验验证，可以取得与使用不同模态骨干网络相似的结果，可以降低模型的复杂性，提高其泛化性。并提出了一个DeepToken方法，随机的将输入的视频和音频标记进行丢弃，从而降低了Transformer 的训练复杂度。

本文的不足在于无法处理缺失视频模态的数据，因为其模态的联系对齐是靠视频模态进行的。并且DropToken中是随机丢弃的，虽然可以降低训练的复杂性，但也可能会降低精度和性能，比如丢弃一些比较重要的特征，是不是可以对这个随机丢弃做一个限制。

2022年12月16日

标签：模态,Transformer,Transformers,21,训练,丢弃,共享,NeurIPS
From： https://www.cnblogs.com/FBprivacy/p/16987785.html

字节流拷备文档学会了可以拷一切 1216
importjava.io.FileInputStream;importjava.io.FileNotFoundException;importjava.io.FileOutputStream;importjava.io.IOException;publicclassTest2{publicst......
使用字符流完成文档的拷备 1216
importjava.io.FileNotFoundException;importjava.io.FileReader;importjava.io.FileWriter;importjava.io.IOException;publicclassTest1{publicstaticvoidm......
字符输入流遍历读数据使用字符数组容器 1216
importjava.io.FileInputStream;importjava.io.IOException;importjava.io.InputStreamReader;publicclassTest4{publicstaticvoidmain(String[]args)throws......
【重磅】华为：2021数字化转型，从战略到执行.pdf（附103页原文下载链接）
在小程序省时查报告中搜索“数字化”、“转型”、“战略”、“互联网”、“推荐”、“人才”等关键词可以查看并下载海量相关行研干货资料。数字化已成为全球重要的共识，各国......
【报告分享】2021新青年国货消费研究报告：文化觉醒时代，宝藏国货迎复兴机遇.pdf（附下载链
今天给大家分享极光于2021年9月份发布的报告《2021新青年国货消费研究报告：文化觉醒时代，宝藏国货迎复兴机遇.pdf》,关注年轻群体消费、新国货、消费、零售等的伙伴别错过啦。......
字符输入流一个一个读数据 1216
importjava.io.FileInputStream;importjava.io.IOException;importjava.io.InputStreamReader;publicclassTest3{publicstaticvoidmain(String[]args)throws......
121. 买卖股票的最佳时机
题目给定一个数组prices，它的第 i个元素 prices[i]表示一支给定股票第i天的价格。你只能选择某一天买入这只股票，并选择在未来的某一个不同的日子卖出该股票。......
2021科大讯飞-X光安检图像识别赛Top1方案！
作者：宋志龙、王威，啄云智能GOAT战队大家好，我们是来自浙江啄云智能科技有限公司的GOAT算法团队，团队多年来专注于X光安检领域算法研究。今天给大家分享的是我们团队在2021科大......
时间序列-预测-模型-2021：SCINet
OverridetheentrypointofanimageIntroducedinGitLabandGitLabRunner9.4.Readmoreaboutthe extendedconfigurationoptions.Beforeexplainingtheav......
python21
同一行显示多条语句Python可以在同一行中使用多条语句，语句之间使用分号(;)分割，以下是一个简单的实例： #!/usr/bin/pythonimportsys;x='runoob';sys.stdout.write......

【五期杨志】CCF-A(NeurIPS’21) VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, A

相关文章

赞助商

阅读排行