ESTextSpotter
ICCV 2023
读论文思考的问题
-
论文试图解决什么问题?
-
场景文本端到端识别任务中,检测和识别两个任务的协同作用十分关键,然而以往的方法通常用一些十分隐式的方式来体现这种协同作用(shared backbone, shared encoder, shared query…),不能完全释放这种两个任务相互帮助的特性
-
如何更加显示地建立这种协同关系,使得检测和识别两个任务的表现都能更好?
-
-
文章提出了什么样的解决方法?
-
提出了 ESTextSpotter 模型,将 DETR 中的 queries 设计成 task-aware 的,分别负责 detection 和 recognition 任务
-
两种 query 之间通过类似于 masked self-attn 的方式进行显式的交互,随后送入 transformer decoder 中和图像特征进行 cross-attn 运算
-
detection query 负责输出文字的 bbox 和 polygon, recognition query 负责输出对应的 characters
-
-
你觉得解决方法的关键之处在哪里?
- 将 object query 设计为 task-aware 的,用显式的方式进行了 attention 的交互,两种 query 之间分工明确(或许这种人工定义的规则在某些情况下更有助于区分两种任务?)
-
这个解决方法的局限性在哪里?有没有更好的解决方法?
- 似乎这类基于 DETR 的模型都没有对文本的上下文语义关系进行显式的建模,但看着也不太需要,效果已经很好了
-
文章是通过设计什么样的实验来支撑其解决方法的有效性的?你觉得设计的实验有什么问题或者是缺少了什么实验?
实验:
-
和 SOTA 的对比
-
multi-oriented, arbitrarily-shaped, multilingual
-
detection, recognition
-
-
消融实验
- ES, TAQI, VLC, REM, TADN
缺少:
- language conversion 和 mask 的作用?
-
要点
- 模型还引入了 denoising training,用 noised box 来进行点采样,加速了模型的收敛。
问题
-
TAQI 模块真的有用吗?有点用。
-
VLC: 这个模块有用吗?感觉太隐式了。有用。如果不做 language conversion,只做 masked self-attn 会怎么样?那个mask有用吗?不清楚,缺乏相关实验。
-
如果把文字的损失加入到matching里面会怎么样?不清楚。