• 2024-10-19论文阅读:Vision Mamba- Efficient Visual Representation Learning with Bidirectional State Space Model
    文章介绍本文由华中科技大学、地平线、智源人工智能研究院等机构合作;提出了一种带有双向Mamba块(Vim)的新通用视觉baseline,它用位置嵌入标记图像序列,并用双向状态空间模型压缩视觉表示。问题引入在处理图像和视频等视觉数据方面,基于纯SSM的通用baseline尚未得到探索;Visu
  • 2024-09-23DeiT:Data-efficient Image Transformer(2020)
    Trainingdata-efficientimagetransformers&distillationthroughattention:通过注意力训练数据高效的图像转换器和蒸馏论文地址:https://arxiv.org/abs/2012.12877代码地址:https://github.com/facebookresearch/deit这篇论文在2020年12月23日首次提交,也就是在ViT提
  • 2024-09-22[CVPR2024]DeiT-LT Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets
    在长尾数据集上,本文引入强增强(文中也称为OOD)实现对DeiT的知识蒸馏的改进,实现尾部类分类性能的提升。动机ViT相较于CNN缺少归纳偏置,如局部性(一个像素与周围的区域关系更紧密)、平移不变性(图像的主体在图像的任意位置都应该一样重要)。因此需要大型数据集进行预训练。长尾数据学习
  • 2024-08-14DeiT-LT:印度科学院提出针对长尾数据的`DeiT`升级模型 | CVPR 2024
    DeiT-LT为ViT在长尾数据集上的应用,通过蒸馏DIST标记引入CNN知识,以及使用分布外图像并重新加权蒸馏损失来增强对尾类的关注。此外,为了减轻过拟合,论文建议用经过SAM训练的CNN教师进行蒸馏,促使所有ViT块中DIST标记学习低秩泛化特征。经过DeiT-LT的训练方案,DIST标记成为尾类的专家,分
  • 2024-08-11Debug Log - ModuleNotFoundError: No module named 'timm.models.layers.patch_embed'
    运行代码:importtimmimporttorchmodel=timm.create_model('deit_small_patch16_224',pretrained=True,num_classes=6,pretrained_cfg_overlay=dict(file='/home/lingdu/zyt/works/pretrained_models/deit_small_patch16_224-cd65a1