• 2024-11-10MOGANET-SA模块
    paper`importtorch.nnasnnimporttorchimporttorch.nn.functionalasFdefbuild_act_layer(act_type):"""Buildactivationlayer."""ifact_typeisNone:returnnn.Identity()assertact_typein['GELU','ReL
  • 2024-11-03【语义分割|代码解析】CMTFNet-4: CNN and Multiscale Transformer Fusion Network 用于遥感图像分割!
    【语义分割|代码解析】CMTFNet-4:CNNandMultiscaleTransformerFusionNetwork用于遥感图像分割!【语义分割|代码解析】CMTFNet-4:CNNandMultiscaleTransformerFusionNetwork用于遥感图像分割!文章目录【语义分割|代码解析】CMTFNet-4:CNNandMultiscale
  • 2024-10-22diffusers-源码解析-四-
    diffusers源码解析(四).\diffusers\models\attention_flax.py#版权声明,表明该代码的版权归HuggingFace团队所有#根据Apache2.0许可证授权使用该文件,未遵守许可证不得使用#许可证获取链接#指出该软件是以“现状”分发,不附带任何明示或暗示的保证#具体的权限和限制请
  • 2024-10-12Transformer的Pytorch实现【1】
    使用Pytorch手把手搭建一个Transformer网络结构并完成一个小型翻译任务。首先,对Transformer结构进行拆解,Transformer由编码器和解码器(Encoder-Decoder)组成,编码器由Multi-HeadAttention+Feed-ForwardNetwork组成的结构堆叠而成,解码器由Multi-HeadAttention+Multi-HeadAtte
  • 2024-10-12YOLO11改进|注意力机制篇|引入DAT注意力机制
    目录一、【DAT】注意力机制1.1【DAT】注意力介绍1.2【DAT】核心代码二、添加【DAT】注意力机制2.1STEP12.2STEP22.3STEP32.4STEP4三、yaml文件与运行3.1yaml文件3.2运行成功截图一、【DAT】注意力机制1.1【DAT】注意力介绍下图是【DAT】的结构图,让我们简单分
  • 2024-10-11LLAVA部署
    先简单记录版本,以后再详细;haotian-liu/LLaVAatv1.2.1(github.com) 当前调通版本:cuda11.7;cudnnLLava-1.2.1;python3.10;torch2.0.1flash-attn; flash_attn-2.0.7+cu117torch2.0cxx11abiTRUE-cp310-cp310-linux_x86_64.whl3090Tillava-7b
  • 2024-10-09YOLO11改进|注意力机制篇|引入MSCA注意力机制
    目录一、【MSCA】注意力机制1.1【MSCA】注意力介绍1.2【MSCA】核心代码二、添加【MSCA】注意力机制2.1STEP12.2STEP22.3STEP32.4STEP4三、yaml文件与运行3.1yaml文件3.2运行成功截图一、【MSCA】注意力机制1.1【MSCA】注意力介绍下图是【MSCA】的结构图,让我
  • 2024-08-07Informer复现--模型之Attention
    目录原始Attention:卷王Informer:拒绝躺平Informer龙场悟道: K 也要选一选到底选多少个:少量;些许;一些代码复现:talkischeapAttention:原代码中是FullAttentionProbAttention复现第一步:计算$u$和$U$第二步:随机选取少量K第三步:计算pre-attention第四步:得到用来选少
  • 2024-08-03DeepViT 论文与代码解析
    paper:DeepViT:TowardsDeeperVisionTransformerofficialimplementation:https://github.com/zhoudaquan/dvit_repo出发点尽管浅层ViTs在视觉任务中表现优异,但随着网络深度增加,性能提升变得困难。研究发现,这种性能饱和的主要原因是注意力崩溃问题,即在深层变压器中,attentio
  • 2024-07-30【flash attention安装】成功解决flash attention安装: undefined symbol: _ZN2at4_ops9_pad_enum4callERKNS_6Tensor
    【大模型-flashattention安装】成功解决flashattention安装site-packages/flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so:undefinedsymbol:_ZN2at4_ops9_pad_enum4callERKNS_6TensorEN3c108ArrayRefINS5_6SymIntEEElNS5_8optionalIdEE本次修炼方法请往下查看
  • 2024-07-27ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference论文阅读笔记
    Motivation&Abs文章关注的任务为用VLM(如CLIP)做开放词汇分割,motivation主要来自于作者的一个观察:分割图中的噪声主要来自于残差连接,这会导致在文本-图像预训练更加强调全局特征,从而牺牲了局部判别能力,从而导致了分割结果中的噪声。为此作者提出了ClearCLIP,对CLIP的特征进行解耦,
  • 2024-07-23CeiT(ICCV 2021, SenseTime)论文与代码解析
    paper:IncorporatingConvolutionDesignsintoVisualTransformersofficialimplementation:GitHub-coeusguo/ceit背景近年来,Transformer在自然语言处理(NLP)任务中取得了巨大的成功,并且开始有一些尝试将其应用于视觉领域。然而,纯Transformer架构在视觉任务中通常需要大量的
  • 2024-07-05解析Torch中多头注意力`MultiheadAttention`
    前沿:这部分内容是《AttentionIsAllYouNeed》出来之后就深入研究了这篇文章的模型结构,也是之后工作那一年进行实际落地的一小部分内容。最近再次使用它,顺带读了torch官方的实现,大家风范的实现,注意很多细节,值得我们学习,也顺带放在这,之后就不再了解这块内容了,过去式了。下
  • 2024-06-24CaiT(ICCV 2021,Meta)论文与代码解析
    paper:GoingdeeperwithImageTransformersofficialimplementation:https://github.com/facebookresearch/deitthird-partyimplementation:https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/cait.py出发点这篇文章的研究重点是改进视觉Transfo
  • 2024-06-06【YOLOv8改进】DAT(Deformable Attention):可变性注意力 (论文笔记+引入代码)
    YOLO目标检测创新改进与实战案例专栏专栏目录:YOLO有效改进系列及项目实战目录包含卷积,主干注意力,检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例摘要Transformers最近在各种视觉任务中展现出了优越的性能。较大甚至是
  • 2024-06-06BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode
    Motivation&Abs端到端大规模视觉语言预训练的开销极大。为此,本文提出了BLIP2,利用现成的冻住的imageencoder以及LLM引导视觉语言预训练。模态差距:通过两阶段训练的轻量级的QueryTransformer(Q-Former)弥补。第一阶段:从冻结的imageencoder引导VL学习;第二阶段:从冻结的LLM引导视
  • 2024-06-05LeViT(ICCV 2021)原理与代码解析
    paper:LeViT:aVisionTransformerinConvNet'sClothingforFasterInferenceofficialimplementation:https://github.com/facebookresearch/LeViTthird-partyimplementation:https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/levit.
  • 2024-06-03Pytorch根据论文手搓CoPE
    根据论文《ContextualPositionEncoding: LearningtoCountWhat’sImportant》编写的CoPE代码。具备多头计算能力,本人水平不高,个人代码未经验证,有问题和建议欢迎指出。CoPE代码为代替LlamaModel中的RoPE而设计,因此函数名称类似于LlamaModel的RoPE,但实际功能略有不同,有待商
  • 2024-05-29flash-attn安装失败
    安装大模型相关环境时,碰到了flash-attn无法安装的问题,看来看去,原来是系统的gcc、g++版本过低。通过以下链接升级centos默认的gcc版本到9:CentOS升级gcc到高版本(全部版本详细过程)。yum-yinstallcentos-release-sclyum-yinstalldevtoolset-9-gccdevtoolset-9-gcc-c++
  • 2024-05-21关于attention中对padding的处理:mask
    先问了下chatgpt:我正在学习torch.nn.multiheadattention,请告诉我att_mask和key_padding_mask这两个参数有什么不同,分别用于处理什么问题,以及输出有什么不同,并给出代码示例chatgpt的回答:torch.nn.MultiheadAttention中的attn_mask和key_padding_mask是两个非常重要的参数,
  • 2024-04-10模型压缩与部署-书生浦语大模型实战营学习笔记&大语言模型7
    大语言模型-7.模型压缩与部署书生浦语大模型实战营学习笔记4-模型压缩与部署本文包括第二期实战营的第5课内容,介绍关于模型压缩的相关内容,主要包括、模型量化和模型部署的相关内容。模型部署定义:在软件工程中,部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域,模
  • 2024-01-24转-图解Swin Transformer
    转自:https://zhuanlan.zhihu.com/p/367111046引言目前Transformer应用到图像领域主要有两大挑战:视觉实体变化大,在不同场景下视觉Transformer性能未必很好图像分辨率高,像素点多,Transformer基于全局自注意力的计算导致计算量较大针对上述两个问题,我们提出了一种包含滑窗操作
  • 2023-11-09【论文阅读笔记】【OCR-文本识别】 Scene Text Recognition with Permuted Autoregressive Sequence Models
    PARSeqECCV2022读论文思考的问题论文试图解决什么问题?一些文本识别模型会对semantic信息建模,从而辅助某些困难情况下的文本识别传统的auto-regressive方式限制了语义信息的传输方向;双向的auto-regressive聚合增加了不必要的计算量和复杂度;聚合视觉模型和语言
  • 2023-10-07【NIPS2021】Twins: Revisiting the Design of Spatial Attention in Vision Transformers
    来自美团技术团队♪(^∀^●)ノシ论文地址:https://arxiv.org/abs/2104.13840代码地址:https://git.io/Twins一、写在前面 本文提出了两种视觉转换器架构,即Twins-PCPVT和Twins-SVT。Twins-PCPVT将金字塔Transformer模型PVT [2] 中的固定位置编码(PositionalEncoding)更改为团队
  • 2023-08-14[机器学习]对transformer使用padding mask
    注:本文是对GPT4的回答的整理校正补充。在处理序列数据时,由于不同的序列可能具有不同的长度,我们经常需要对较短的序列进行填充(padding)以使它们具有相同的长度。但是,在模型的计算过程中,这些填充值是没有实际意义的,因此我们需要一种方法来确保模型在其计算中忽略这些填充值。这就是p