- 2024-09-25EfficientViT(2023CVPR):具有级联组注意力的内存高效视觉Transformer!
EfficientViT:MemoryEfficientVisionTransformerwithCascadedGroupAttentionEfficientViT:具有级联组注意力的内存高效视觉Transformer万文长字,请耐心观看~论文地址:https://arxiv.org/abs/2305.07027代码地址:Cream/EfficientViTatmain·microsoft/Cream
- 2024-06-11基于 Transformer 的大语言模型
语言建模作为语言模型(LMs)的基本功能,涉及对单词序列的建模以及预测后续单词的分布。近年来,研究人员发现,扩大语言模型的规模不仅增强了它们的语言建模能力,而且还产生了处理传统NLP任务之外更复杂任务的新兴能力。这些扩大规模的语言模型被称为大型语言模型(LLMs)。主流的LLMs基
- 2024-04-01视觉Transformer和Swin Transformer
视觉Transformer概述ViT的基本结构:①输入图片首先被切分为固定尺寸的切片;②对展平的切片进行线性映射(通过矩阵乘法对维度进行变换);③为了保留切片的位置信息,在切片送入Transformer编码器之前,对每个切片加入位置编码信息;④Transformer编码器由L个Transformer模块组成,每个模
- 2023-12-18InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions 可变形卷积v3
InternImage:ExploringLarge-ScaleVisionFoundationModelswithDeformableConvolutions*Authors:[[WenhaiWang]],[[JifengDai]],[[ZheChen]],[[ZhenhangHuang]],[[ZhiqiLi]],[[XizhouZhu]],[[XiaoweiHu]],[[TongLu]],[[LeweiLu]],[[HongshengLi]
- 2023-12-18Bottleneck Transformers for Visual Recognition
BottleneckTransformersforVisualRecognition*Authors:[[AravindSrinivas]],[[Tsung-YiLin]],[[NikiParmar]],[[JonathonShlens]],[[PieterAbbeel]],[[AshishVaswani]]DOI:10.1109/CVPR46437.2021.01625初读印象comment::(BoTNet)通过在ResNet的最后三个