VisionLAN
ICCV 2021
读论文思考的问题
-
论文试图解决什么问题?
-
使用语言模型对识别的文本的上下文语义信息进行建模时,会有以下问题:引入额外的计算量;识别的视觉和语言特征很难做一个很好的融合、互补
-
能否在不使用语言模型的情况下,直接赋予视觉模型一定的语言建模能力?
-
-
文章提出了什么样的解决方法?
-
用弱监督的方式,MLM 根据图片特征和字符的 idx 生成对应的字符掩码 mask,将原特征进行掩码
-
对mask的监督来自于(将对应字符删去后的)文本预测的损失,正向mask和反向mask总共可以有2个监督
-
mask的作用是用于增强视觉理解模块VRM的掩码建模能力
-
-
掩码后的图像特征输入基于transformer的视觉模型VRM中,通过”掩码视觉建模”的思想预测出正确的单词,VRM 学到了根据掩码后的视觉特征建模出原有的完整文本字符串的能力
-
推导时,不使用MLM,单纯使用VRM进行推导
-
-
你觉得解决方法的关键之处在哪里?
-
弱监督学习技术:在没有对应字符的mask的gt的情况下,利用(丢掉要掩盖的字符后)的文本损失来监督字符级别 mask 的预测,而模型也表现出了较好的学习能力
-
掩码建模方法:将掩盖某字符后的视觉特征丢给视觉模型,根据目标的完整文本预测,使得视觉模型自己就具有一定的上下文语义理解能力,避免了额外语言模型的引入
-
-
这个解决方法的局限性在哪里?有没有更好的解决方法?
-
文章是通过设计什么样的实验来支撑其解决方法的有效性的?(你说有效就有效吗,我不信)这些实验你觉得有效吗?
问题
-
如果 MLM 里面的两个支路没有共享模型参数会怎么样?模型参数共享真的有效吗?
-
VSR 里面的 transformer 模块是否有用?