CVPR 2022
读论文思考的问题
-
论文试图解决什么问题?
-
一些基于 DETR 的方法在 ICDAR15, MLT17 等文字尺度变化范围较大的数据集上文本检测的效果不佳
-
DETR 运用的高层特征图难以捕捉小文字的特征,且会引入很多无关的背景噪声,增加了检测的困难程度
-
即使使用 DETR 的改进模型也不能达到很好的检测效果
-
能否使用基于 DETR 的视觉模型,比较高效、良好地进行文本检测任务?
-
-
文章提出了什么样的解决方法?
-
根据特征图文本区域的概率进行topk的特征点采样,随后用一个transformer encoder 架构对特征点进行隐式的聚类,最终输出每个聚类结果对应的边界框或者贝塞尔曲线控制点
-
文本区域的概率图采用对特征进行卷积、下采样的方式生成,对于不同规模大小的特征都生成了对应的概率图
-
在每个概率图上分别采样概率最高的k个点,代表了文字前景的区域
-
transformer 的 self-attn 机制可以做点的 grouping,将不同的点聚类为不同的instance
-
-
你觉得解决方法的关键之处在哪里?
-
通过对概率图进行 topk 点采样的方式,较好地筛选出了文字对应的图片前景的特征,去除了背景噪声
-
没有像DETR那种做法一样对文字的边界框做回归和refinement,而是采用了 transformer encoder 直接进行点的隐式聚类,可能可以较好解决小文本的识别问题
-
-
这个解决方法的局限性在哪里?有没有更好的解决方法?
- 预测的概率图很难处理文字重叠的情况,可能会失效
-
文章是通过设计什么样的实验来支撑其解决方法的有效性的?(你说有效就有效吗,我不信)你觉得设计的实验有什么问题或者是缺少了什么实验?
实验:
-
多角度旋转、弯曲、多语言文本检测
-
点采样:不同特征图上采样不同数量的点做了消融实验
-
和其他的基于DETR的模型做了收敛速度、检测效果和FLOP的比较
-
vallina transformer 和 swin transformer 的比较
-
(*) 一般的旋转目标检测
问题:
-
没有相应的对比实验,我很难看出 Gaussian Wasserstein Distance (GWD) 在其中起到的作用
-
似乎没有实验体现出这个方法在小文本检测上的优势所在
-
问题
- transformer encoder 的输入和输出似乎在语义层次上对应的东西是不同的? 每个输入的 token 对应的是像素,输出的 token 则对应某个文本实例