首页 > 其他分享 >【论文阅读笔记】【OCR-End2End】 Bridging the Gap Between End-to-End and Two-Step Text Spotting

【论文阅读笔记】【OCR-End2End】 Bridging the Gap Between End-to-End and Two-Step Text Spotting

时间:2024-07-08 16:22:54浏览次数:18  
标签:bridge Bridging End Bridge Text Spotting 模块 recognizer

Bridge Text Spotting
CVPR 2024

读论文思考的问题

  1. 论文试图解决什么问题?

    问题:

    • 如何在保证模块化的前提下,更好地解决两阶段场景文本检测方法中的误差累积问题?

    背景:

    • 端到端的场景文本检测识别模型在新场景应用、更换检测器等情况下需要花费大量的时间训练

    • 两阶段模型虽然有误差累积的问题,但却有很强的模块化特性。这使得我们能够分别对检测和识别模块进行单独训练

  2. 文章提出了什么样的解决方法?

    • 利用成熟的 detector 以及 recognizer 组成一个 two-stage 的模型

    • 训练时冻结两个模块的参数,引入 Bridge 模块进行两个模块的连接。Bridge 的参数用0来初始化,使得 recognizer 在开始时不会将 detector 输出的特征当做噪声

    • 借鉴 nlp 中 adapter 的思想,实现对 detector 以及 recognizer 参数的高效学习

  3. 你觉得解决方法的关键之处在哪里?

    • 利用0初始化的bridge模块实现了对检测和识别模块的较好的耦合
  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

    • 对于recognizer而言,无论是特征还是图片输入,都是用矩形来进行 crop,这可能会导致某些弯曲文字对应的输入区域并不是最优的
  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?你觉得设计的实验有什么问题或者是缺少了什么实验?

    实验:

    1. 在 total-text, ctw1500 和 icdar-2015 上的表现

    2. 消融实验:bridge模块、adapter模块、参数是否用0来初始化、bridge 里面 transformer 的层数

    3. 自己设计的 bridge 模式以及其他连接方式的 pipeline 的对比(通过逐步靠近的方式来做一些消融)

标签:bridge,Bridging,End,Bridge,Text,Spotting,模块,recognizer
From: https://www.cnblogs.com/yywwhh2000/p/18290119

相关文章