attn

2024-11-10MOGANET-SA模块
paper`importtorch.nnasnnimporttorchimporttorch.nn.functionalasFdefbuild_act_layer(act_type):"""Buildactivationlayer."""ifact_typeisNone:returnnn.Identity()assertact_typein['GELU','ReL
2024-11-03【语义分割|代码解析】CMTFNet-4: CNN and Multiscale Transformer Fusion Network 用于遥感图像分割！
【语义分割|代码解析】CMTFNet-4:CNNandMultiscaleTransformerFusionNetwork用于遥感图像分割！【语义分割|代码解析】CMTFNet-4:CNNandMultiscaleTransformerFusionNetwork用于遥感图像分割！文章目录【语义分割|代码解析】CMTFNet-4:CNNandMultiscale
2024-10-22diffusers-源码解析-四-
diffusers源码解析（四）.\diffusers\models\attention_flax.py#版权声明，表明该代码的版权归HuggingFace团队所有#根据Apache2.0许可证授权使用该文件，未遵守许可证不得使用#许可证获取链接#指出该软件是以“现状”分发，不附带任何明示或暗示的保证#具体的权限和限制请
2024-10-12Transformer的Pytorch实现【1】
使用Pytorch手把手搭建一个Transformer网络结构并完成一个小型翻译任务。首先，对Transformer结构进行拆解，Transformer由编码器和解码器（Encoder-Decoder）组成，编码器由Multi-HeadAttention+Feed-ForwardNetwork组成的结构堆叠而成，解码器由Multi-HeadAttention+Multi-HeadAtte
2024-10-12YOLO11改进|注意力机制篇|引入DAT注意力机制
目录一、【DAT】注意力机制1.1【DAT】注意力介绍1.2【DAT】核心代码二、添加【DAT】注意力机制2.1STEP12.2STEP22.3STEP32.4STEP4三、yaml文件与运行3.1yaml文件3.2运行成功截图一、【DAT】注意力机制1.1【DAT】注意力介绍下图是【DAT】的结构图，让我们简单分
2024-10-11LLAVA部署
先简单记录版本，以后再详细；haotian-liu/LLaVAatv1.2.1(github.com) 当前调通版本：cuda11.7;cudnnLLava-1.2.1;python3.10;torch2.0.1flash-attn; flash_attn-2.0.7+cu117torch2.0cxx11abiTRUE-cp310-cp310-linux_x86_64.whl3090Tillava-7b
2024-10-09YOLO11改进|注意力机制篇|引入MSCA注意力机制
目录一、【MSCA】注意力机制1.1【MSCA】注意力介绍1.2【MSCA】核心代码二、添加【MSCA】注意力机制2.1STEP12.2STEP22.3STEP32.4STEP4三、yaml文件与运行3.1yaml文件3.2运行成功截图一、【MSCA】注意力机制1.1【MSCA】注意力介绍下图是【MSCA】的结构图，让我
2024-08-07Informer复现--模型之Attention
目录原始Attention：卷王Informer:拒绝躺平Informer龙场悟道： K 也要选一选到底选多少个：少量；些许；一些代码复现：talkischeapAttention:原代码中是FullAttentionProbAttention复现第一步：计算$u$和$U$第二步：随机选取少量K第三步：计算pre-attention第四步：得到用来选少
2024-08-03DeepViT 论文与代码解析
paper：DeepViT:TowardsDeeperVisionTransformerofficialimplementation：https://github.com/zhoudaquan/dvit_repo出发点尽管浅层ViTs在视觉任务中表现优异，但随着网络深度增加，性能提升变得困难。研究发现，这种性能饱和的主要原因是注意力崩溃问题，即在深层变压器中，attentio
2024-07-30【flash attention安装】成功解决flash attention安装: undefined symbol: _ZN2at4_ops9_pad_enum4callERKNS_6Tensor
【大模型-flashattention安装】成功解决flashattention安装site-packages/flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so:undefinedsymbol:_ZN2at4_ops9_pad_enum4callERKNS_6TensorEN3c108ArrayRefINS5_6SymIntEEElNS5_8optionalIdEE本次修炼方法请往下查看
2024-07-27ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference论文阅读笔记
Motivation&Abs文章关注的任务为用VLM（如CLIP）做开放词汇分割，motivation主要来自于作者的一个观察：分割图中的噪声主要来自于残差连接，这会导致在文本-图像预训练更加强调全局特征，从而牺牲了局部判别能力，从而导致了分割结果中的噪声。为此作者提出了ClearCLIP，对CLIP的特征进行解耦，
2024-07-23CeiT（ICCV 2021, SenseTime）论文与代码解析
paper：IncorporatingConvolutionDesignsintoVisualTransformersofficialimplementation：GitHub-coeusguo/ceit背景近年来，Transformer在自然语言处理（NLP）任务中取得了巨大的成功，并且开始有一些尝试将其应用于视觉领域。然而，纯Transformer架构在视觉任务中通常需要大量的
2024-07-05解析Torch中多头注意力`MultiheadAttention`
前沿：这部分内容是《AttentionIsAllYouNeed》出来之后就深入研究了这篇文章的模型结构，也是之后工作那一年进行实际落地的一小部分内容。最近再次使用它，顺带读了torch官方的实现，大家风范的实现，注意很多细节，值得我们学习，也顺带放在这，之后就不再了解这块内容了，过去式了。下
2024-06-24CaiT（ICCV 2021，Meta）论文与代码解析
paper：GoingdeeperwithImageTransformersofficialimplementation：https://github.com/facebookresearch/deitthird-partyimplementation：https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/cait.py出发点这篇文章的研究重点是改进视觉Transfo
2024-06-06【YOLOv8改进】DAT（Deformable Attention）：可变性注意力 (论文笔记+引入代码)
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例摘要Transformers最近在各种视觉任务中展现出了优越的性能。较大甚至是
2024-06-06BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode
Motivation&Abs端到端大规模视觉语言预训练的开销极大。为此，本文提出了BLIP2，利用现成的冻住的imageencoder以及LLM引导视觉语言预训练。模态差距：通过两阶段训练的轻量级的QueryTransformer（Q-Former）弥补。第一阶段：从冻结的imageencoder引导VL学习；第二阶段：从冻结的LLM引导视
2024-06-05LeViT（ICCV 2021）原理与代码解析
paper：LeViT:aVisionTransformerinConvNet'sClothingforFasterInferenceofficialimplementation：https://github.com/facebookresearch/LeViTthird-partyimplementation：https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/levit.
2024-06-03Pytorch根据论文手搓CoPE
根据论文《ContextualPositionEncoding: LearningtoCountWhat’sImportant》编写的CoPE代码。具备多头计算能力，本人水平不高，个人代码未经验证，有问题和建议欢迎指出。CoPE代码为代替LlamaModel中的RoPE而设计，因此函数名称类似于LlamaModel的RoPE，但实际功能略有不同，有待商
2024-05-29flash-attn安装失败
安装大模型相关环境时，碰到了flash-attn无法安装的问题，看来看去，原来是系统的gcc、g++版本过低。通过以下链接升级centos默认的gcc版本到9:CentOS升级gcc到高版本（全部版本详细过程）。yum-yinstallcentos-release-sclyum-yinstalldevtoolset-9-gccdevtoolset-9-gcc-c++
2024-05-21关于attention中对padding的处理：mask
先问了下chatgpt:我正在学习torch.nn.multiheadattention，请告诉我att_mask和key_padding_mask这两个参数有什么不同，分别用于处理什么问题，以及输出有什么不同，并给出代码示例chatgpt的回答：torch.nn.MultiheadAttention中的attn_mask和key_padding_mask是两个非常重要的参数，
2024-04-10模型压缩与部署-书生浦语大模型实战营学习笔记&大语言模型7
大语言模型-7.模型压缩与部署书生浦语大模型实战营学习笔记4-模型压缩与部署本文包括第二期实战营的第5课内容，介绍关于模型压缩的相关内容，主要包括、模型量化和模型部署的相关内容。模型部署定义：在软件工程中，部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域，模
2024-01-24转-图解Swin Transformer
转自：https://zhuanlan.zhihu.com/p/367111046引言目前Transformer应用到图像领域主要有两大挑战：视觉实体变化大，在不同场景下视觉Transformer性能未必很好图像分辨率高，像素点多，Transformer基于全局自注意力的计算导致计算量较大针对上述两个问题，我们提出了一种包含滑窗操作
2023-11-09【论文阅读笔记】【OCR-文本识别】 Scene Text Recognition with Permuted Autoregressive Sequence Models
PARSeqECCV2022读论文思考的问题论文试图解决什么问题？一些文本识别模型会对semantic信息建模，从而辅助某些困难情况下的文本识别传统的auto-regressive方式限制了语义信息的传输方向；双向的auto-regressive聚合增加了不必要的计算量和复杂度；聚合视觉模型和语言
2023-10-07【NIPS2021】Twins: Revisiting the Design of Spatial Attention in Vision Transformers
来自美团技术团队♪（＾∀＾●）ﾉｼ论文地址：https://arxiv.org/abs/2104.13840代码地址：https://git.io/Twins一、写在前面本文提出了两种视觉转换器架构，即Twins-PCPVT和Twins-SVT。Twins-PCPVT将金字塔Transformer模型PVT [2] 中的固定位置编码（PositionalEncoding）更改为团队
2023-08-14[机器学习]对transformer使用padding mask
注：本文是对GPT4的回答的整理校正补充。在处理序列数据时，由于不同的序列可能具有不同的长度，我们经常需要对较短的序列进行填充（padding）以使它们具有相同的长度。但是，在模型的计算过程中，这些填充值是没有实际意义的，因此我们需要一种方法来确保模型在其计算中忽略这些填充值。这就是p