PARSeq
ECCV 2022
读论文思考的问题
-
论文试图解决什么问题?
-
一些文本识别模型会对 semantic 信息建模,从而辅助某些困难情况下的文本识别
-
传统的 auto-regressive 方式限制了语义信息的传输方向;双向的 auto-regressive 聚合增加了不必要的计算量和复杂度;聚合视觉模型和语言模型的方法并不好,语言模型通常不接收视觉信息的输入,而语言模型本身能力不强,可能会造成对正确文本的错误修正。
-
能否建立更好的语言模型,修正上述方法的缺点,集成 AR 和 non-AR 的推理方式的优点?
-
-
文章提出了什么样的解决方法?
-
将自然语言处理中的排列语言建模(PLM)的思想应用到文本识别中,通过设计与给定排列相关的 cross attn mask ,让模型学习到比较强的语言上下文信息建模的能力
-
利用 encoder-decoder 架构实现文本识别。positional encoding 序列首先跟gt的文本通过排列语言建模,进行交叉注意力计算;随后跟编码的图像信息进行第二次交叉注意力计算;最后用线性层进行分类输出
-
-
你觉得解决方法的关键之处在哪里?
-
创造性地将 xlnet 中的 PLM 技术应用到文本识别中,attention从多个角度、全面地学习了文本的上下文信息(不只有AR的单向)
-
decoder 不仅用到了文本的信息,还跟图像信息做了 cross-attn,联合了context-free和context-aware方法。这使得预测的结果不会出现将正确词汇进行错误纠正的情况
-
-
这个解决方法的局限性在哪里?有没有更好的解决方法?
-
文章是通过设计什么样的实验来支撑其解决方法的有效性的?(你说有效就有效吗,我不信)你觉得设计的实验有什么问题或者是缺少了什么实验?
要点
-
排列语言建模只需要根据特定的排列顺序,合理地设计好 attn mask 即可
-
只选取了K个排列进行计算,而不是全部的排列
-
inference 解码时可以采用 AR 或 NAR 的方式,同时可以用 cloze mask 来做 iterative refinement
问题
-
第3页里,Mansimov 的论文究竟说了啥?
-
inference 的时候没有 gt, 那么第一个 cross attn会怎么做呢
-
two-stream attention 是啥