CLIPTER
ICCV 2023
读论文思考的问题
-
论文试图解决什么问题?
-
现有的文本识别方法只关注于局部截取的文本区域,识别模型并没有利用全图的上下文信息,导致其可能对有挑战性的文本的识别效果较差
-
能否以某种方式使识别器利用上global feature的信息?
-
-
文章提出了什么样的解决方法?
-
提出CLIPTER模型,用一个 Visual-Language Aligned Model (e.g. CLIP) 来提取全图的特征,随后做pooling
-
通过 cross-attn或 gated attn 技术来融合 local feature 和 global feature
-
该方法可以作为一个实用的模块,接到现有的各类识别模型上面
-
-
你觉得解决方法的关键之处在哪里?
-
感觉最关键的还是这个思想,用全局的特征来弥补局部特征的一些不足
-
用 CLIP 来提取了相对较为适合的全局特征
-
-
这个解决方法的局限性在哪里?有没有更好的解决方法?
- 感觉上提升不是很高,CLIP提取的这种语义信息能用上的场景不是很多
-
文章是通过设计什么样的实验来支撑其解决方法的有效性的?(你说有效就有效吗,我不信)你觉得设计的实验有什么问题或者是缺少了什么实验?
实验:
-
将CLIPTER加入到各种识别器的实验
-
out-of-vocabulary 的 text 实例检测实验
-
低比例的训练样本的对比实验
-
模块带来的延迟实验
-
消融实验:
-
不同的 Image Encoder
-
pooling 分辨率
-
不同的 Integration Point
-
不同的 fusion mechanism
-
-
要点
-
两种特征融合的时间点不是约束好的,具体可以采用 early fusion 和 late fusion 两种方式
-
global img token 前面还加入了一个 special token [CLASS],作为全局信息的聚合
问题
- 有没有实验证明gated attention的优势?(效果好、收敛速度稳定) 有是有,但似乎效果不明显