• 2024-10-25LookupViT:类似SE的token压缩方案,加速还能丰富特征 | ECCV'24
    视觉变换器(ViT)已成为众多工业级视觉解决方案的事实标准选择。但由于每一层都计算自注意力,这导致其推理成本对许多场景而言是不可接受的,因为自注意力在标记数量上具有平方的计算复杂度。另一方面,图像中的空间信息和视频中的时空信息通常是稀疏和冗余的。LookupViT旨在利用这种信