TextFormer
arXiv:2306.03377
读论文思考的问题
-
论文试图解决什么问题?写作背景是什么?
问题:
-
如何设计一种更好的 query-based 的方法来同时实现端到端的场景文本检测
-
能否利用弱监督数据(只有文本)进一步增强端到端模型的文本识别能力?
背景:
-
目前的端到端场景文本检测识别模型在一些比较极端的情况下识别能力不强
-
训练一个文本识别模型所需要的数据通常比检测模型要多,而目前的端到端模型一般采用全监督数据进行训练,文本数据不够(尤其是中文等多字符语言),很难达到足够的端到端训练效果
-
-
文章提出了什么样的解决方法?
-
基于DETR设计了一种 query-based 的方法来进行场景文本的端到端识别,每个query能同时输出分类、mask和text,从而实现了多任务联合训练
-
使用弱监督数据和全监督数据进行混合训练,在弱监督训练时不加入mask部分的匹配和损失,从而给识别器足够的数据进行训练
-
-
你觉得解决方法的关键之处在哪里?
- 个人感觉没有什么新颖的地方
-
这个解决方法的局限性在哪里?有没有更好的解决方法?
- 收集img信息的AGG模块采用的是在水平和垂直方向根据mask分别求平均的方式,这样很容易造成信息的损失
-
文章是通过设计什么样的实验来支撑其解决方法的有效性的?这些实验你觉得有效吗?
问题
- 一直没看懂每个query是怎么通过点积转换成对应的三维特征的