Bridge Text Spotting
CVPR 2024
读论文思考的问题
-
论文试图解决什么问题?
问题:
- 如何在保证模块化的前提下,更好地解决两阶段场景文本检测方法中的误差累积问题?
背景:
-
端到端的场景文本检测识别模型在新场景应用、更换检测器等情况下需要花费大量的时间训练
-
两阶段模型虽然有误差累积的问题,但却有很强的模块化特性。这使得我们能够分别对检测和识别模块进行单独训练
-
文章提出了什么样的解决方法?
-
利用成熟的 detector 以及 recognizer 组成一个 two-stage 的模型
-
训练时冻结两个模块的参数,引入 Bridge 模块进行两个模块的连接。Bridge 的参数用0来初始化,使得 recognizer 在开始时不会将 detector 输出的特征当做噪声
-
借鉴 nlp 中 adapter 的思想,实现对 detector 以及 recognizer 参数的高效学习
-
-
你觉得解决方法的关键之处在哪里?
- 利用0初始化的bridge模块实现了对检测和识别模块的较好的耦合
-
这个解决方法的局限性在哪里?有没有更好的解决方法?
- 对于recognizer而言,无论是特征还是图片输入,都是用矩形来进行 crop,这可能会导致某些弯曲文字对应的输入区域并不是最优的
-
文章是通过设计什么样的实验来支撑其解决方法的有效性的?你觉得设计的实验有什么问题或者是缺少了什么实验?
实验:
-
在 total-text, ctw1500 和 icdar-2015 上的表现
-
消融实验:bridge模块、adapter模块、参数是否用0来初始化、bridge 里面 transformer 的层数
-
自己设计的 bridge 模式以及其他连接方式的 pipeline 的对比(通过逐步靠近的方式来做一些消融)
-