问题缘起
在 ICDAR-2015 的场景文本端到端检测与识别任务中,总会出现 2 个不同的检测指标,其数值一般有微小的区别(0.5个点以内)。一直搞不懂这两个指标的区别在哪,最近看到了一篇论文[1],里面给出了这两个指标的解释。
解答
直接贴图:
可以看到这里解释得很清楚。在端到端任务中,通常会提供一个词典,根据最小编辑距离(比如小于等于1)来对检测的结果进行修正。两种评价指标的区别在于是否考虑没有出现在词典里的单词。
- End-to-End:图像中的所有单词均需要被正确识别,包括没有出现在词典中的单词。
- Word Spotting:只需要考虑图像中在词典里出现的单词,词典之外的单词识别结果的正确与否无需考虑。
那如果这样推理的话,如果采用了词典修正,图片中又具有词典里没有的单词,那么 End-to-End 指标就不可能达到 100% 了,因为不出现在词典里的词有可能被错误地修改,或者因为跟词典里的词编辑距离过大而被筛除。(除非不使用词典,而且模型推导结果完全正确,End-to-End 指标才可能达到 100%)
另一个问题是:如果不引入额外的词典,那么就不能计算 Word Spotting 指标了吧?还是说两种指标的数值都视作一样呢?个人倾向于前者,但感觉这个问题无关紧要。
参考文献
[1] Li, Hui, Peng Wang, and Chunhua Shen. "Towards end-to-end text spotting with convolutional recurrent neural networks." Proceedings of the IEEE international conference on computer vision. 2017.