ScanFormer

2024-09-23ScanFormer：逐层抵达目标，基于特征金字塔的指代表达理解框架 | CVPR'24
指代表达理解（REC）旨在在图像中定位由自由形式自然语言描述指定的目标对象。尽管最先进的方法取得了令人印象深刻的性能，但它们对图像进行了密集感知，包含与语言查询无关的多余视觉区域，导致额外的计算开销。这启发论文探讨一个问题：能否消除与语言无关的多余视觉区域，以提高模型的效率？