MHSA

2024-09-25EfficientViT(2023CVPR)：具有级联组注意力的内存高效视觉Transformer!
EfficientViT:MemoryEfficientVisionTransformerwithCascadedGroupAttentionEfficientViT:具有级联组注意力的内存高效视觉Transformer万文长字，请耐心观看~论文地址：https://arxiv.org/abs/2305.07027代码地址：Cream/EfficientViTatmain·microsoft/Cream
2024-06-11基于 Transformer 的大语言模型
语言建模作为语言模型（LMs）的基本功能，涉及对单词序列的建模以及预测后续单词的分布。近年来，研究人员发现，扩大语言模型的规模不仅增强了它们的语言建模能力，而且还产生了处理传统NLP任务之外更复杂任务的新兴能力。这些扩大规模的语言模型被称为大型语言模型（LLMs）。主流的LLMs基
2024-04-01视觉Transformer和Swin Transformer
视觉Transformer概述ViT的基本结构：①输入图片首先被切分为固定尺寸的切片；②对展平的切片进行线性映射（通过矩阵乘法对维度进行变换）；③为了保留切片的位置信息，在切片送入Transformer编码器之前，对每个切片加入位置编码信息；④Transformer编码器由L个Transformer模块组成，每个模
2023-12-18InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions 可变形卷积v3
InternImage:ExploringLarge-ScaleVisionFoundationModelswithDeformableConvolutions*Authors:[[WenhaiWang]],[[JifengDai]],[[ZheChen]],[[ZhenhangHuang]],[[ZhiqiLi]],[[XizhouZhu]],[[XiaoweiHu]],[[TongLu]],[[LeweiLu]],[[HongshengLi]
2023-12-18Bottleneck Transformers for Visual Recognition
BottleneckTransformersforVisualRecognition*Authors:[[AravindSrinivas]],[[Tsung-YiLin]],[[NikiParmar]],[[JonathonShlens]],[[PieterAbbeel]],[[AshishVaswani]]DOI:10.1109/CVPR46437.2021.01625初读印象comment::(BoTNet)通过在ResNet的最后三个