• 2024-06-24CaiT(ICCV 2021,Meta)论文与代码解析
    paper:GoingdeeperwithImageTransformersofficialimplementation:https://github.com/facebookresearch/deitthird-partyimplementation:https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/cait.py出发点这篇文章的研究重点是改进视觉Transfo
  • 2024-06-06【YOLOv8改进】DAT(Deformable Attention):可变性注意力 (论文笔记+引入代码)
    YOLO目标检测创新改进与实战案例专栏专栏目录:YOLO有效改进系列及项目实战目录包含卷积,主干注意力,检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例摘要Transformers最近在各种视觉任务中展现出了优越的性能。较大甚至是
  • 2024-06-06BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode
    Motivation&Abs端到端大规模视觉语言预训练的开销极大。为此,本文提出了BLIP2,利用现成的冻住的imageencoder以及LLM引导视觉语言预训练。模态差距:通过两阶段训练的轻量级的QueryTransformer(Q-Former)弥补。第一阶段:从冻结的imageencoder引导VL学习;第二阶段:从冻结的LLM引导视
  • 2024-06-05LeViT(ICCV 2021)原理与代码解析
    paper:LeViT:aVisionTransformerinConvNet'sClothingforFasterInferenceofficialimplementation:https://github.com/facebookresearch/LeViTthird-partyimplementation:https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/levit.
  • 2024-06-03Pytorch根据论文手搓CoPE
    根据论文《ContextualPositionEncoding: LearningtoCountWhat’sImportant》编写的CoPE代码。具备多头计算能力,本人水平不高,个人代码未经验证,有问题和建议欢迎指出。CoPE代码为代替LlamaModel中的RoPE而设计,因此函数名称类似于LlamaModel的RoPE,但实际功能略有不同,有待商
  • 2024-05-29flash-attn安装失败
    安装大模型相关环境时,碰到了flash-attn无法安装的问题,看来看去,原来是系统的gcc、g++版本过低。通过以下链接升级centos默认的gcc版本到9:CentOS升级gcc到高版本(全部版本详细过程)。yum-yinstallcentos-release-sclyum-yinstalldevtoolset-9-gccdevtoolset-9-gcc-c++
  • 2024-05-21关于attention中对padding的处理:mask
    先问了下chatgpt:我正在学习torch.nn.multiheadattention,请告诉我att_mask和key_padding_mask这两个参数有什么不同,分别用于处理什么问题,以及输出有什么不同,并给出代码示例chatgpt的回答:torch.nn.MultiheadAttention中的attn_mask和key_padding_mask是两个非常重要的参数,
  • 2024-04-10模型压缩与部署-书生浦语大模型实战营学习笔记&大语言模型7
    大语言模型-7.模型压缩与部署书生浦语大模型实战营学习笔记4-模型压缩与部署本文包括第二期实战营的第5课内容,介绍关于模型压缩的相关内容,主要包括、模型量化和模型部署的相关内容。模型部署定义:在软件工程中,部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域,模
  • 2024-01-24转-图解Swin Transformer
    转自:https://zhuanlan.zhihu.com/p/367111046引言目前Transformer应用到图像领域主要有两大挑战:视觉实体变化大,在不同场景下视觉Transformer性能未必很好图像分辨率高,像素点多,Transformer基于全局自注意力的计算导致计算量较大针对上述两个问题,我们提出了一种包含滑窗操作
  • 2023-11-09【论文阅读笔记】【OCR-文本识别】 Scene Text Recognition with Permuted Autoregressive Sequence Models
    PARSeqECCV2022读论文思考的问题论文试图解决什么问题?一些文本识别模型会对semantic信息建模,从而辅助某些困难情况下的文本识别传统的auto-regressive方式限制了语义信息的传输方向;双向的auto-regressive聚合增加了不必要的计算量和复杂度;聚合视觉模型和语言
  • 2023-10-07【NIPS2021】Twins: Revisiting the Design of Spatial Attention in Vision Transformers
    来自美团技术团队♪(^∀^●)ノシ论文地址:https://arxiv.org/abs/2104.13840代码地址:https://git.io/Twins一、写在前面 本文提出了两种视觉转换器架构,即Twins-PCPVT和Twins-SVT。Twins-PCPVT将金字塔Transformer模型PVT [2] 中的固定位置编码(PositionalEncoding)更改为团队
  • 2023-08-14[机器学习]对transformer使用padding mask
    注:本文是对GPT4的回答的整理校正补充。在处理序列数据时,由于不同的序列可能具有不同的长度,我们经常需要对较短的序列进行填充(padding)以使它们具有相同的长度。但是,在模型的计算过程中,这些填充值是没有实际意义的,因此我们需要一种方法来确保模型在其计算中忽略这些填充值。这就是p
  • 2023-08-01像建房子一样打造变形金刚,追梦女孩要刚强(二)
    今天的任务很艰巨,需要把下面这张图的模型架构复现一遍,要有耐心哦。我参考了哈佛NLP小组对transformer的分拆讲解TheAnnotatedTransformer,但思路不同于原文。原文是从整体到局部,而我是从局部到整体。我们先把Day1的嵌入层复制过来(使用的是harvard的版本):fromtorchimportTenso
  • 2023-07-07我用numpy实现了GPT-2,GPT-2源码,GPT-2模型加速推理,并且可以在树莓派上运行,读了不少hungging face源码,手动实现了numpy的GPT2模型
     之前分别用numpy实现了mlp,cnn,lstm和bert模型,这周顺带搞一下GPT-2,纯numpy实现,最重要的是可在树莓派上或其他不能安装pytorch的板子上运行,生成数据gpt-2的mask-multi-headed-self-attention我现在才彻底的明白它是真的牛逼,比bert的multi-headed-self-attention牛的不是一点半点,
  • 2023-07-04【论文阅读】Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions
    来自ICCV2021论文地址:[2102.12122]PyramidVisionTransformer:AVersatileBackboneforDensePredictionwithoutConvolutions(arxiv.org)代码地址:https://link.zhihu.com/?target=https%3A//github.com/whai362/PVT一、Motivation1.将金字塔结构引入视觉Transformer,使
  • 2023-03-21从Transformer到ViT:多模态编码器算法原理解析与实现
    从Transformer到ViT:多模态编码器算法原理解析与实现模型架构与算法原理ImageTokenEmbeddingMulti-headSelf-attention流程线性变换MatMulScale和softmaxMatMul前向层模块
  • 2022-12-04扒源码系列:GPT / GPT-2 中 proj 的作用
    事情是这样的。前两天翻译了一篇文章图解GPT-2。在翻译的过程中为了防止自己出错,所以参考了一下其他人对于GPT的一些理解,然后就出错了,为了解决这个错误,导致我最后重新扒了一
  • 2022-10-19Transformer源码
    title:Transformer源码date:2022-10-0918:30:35mathjax:truetags:EncoderDecoderTransformerTransformer代码(源码Pytorch版本)从零解读(Pytorch版本)_哔哩
  • 2022-10-17GPT2代码详解
    这里主要解读transformers中关于GPT2的代码,主要涉及:GPT2Attention,GPT2Block,GPT2MLP以及GPT2Model#transformers安装condainstalltransformerspipinstalltransforme
  • 2022-10-14发邮件
    1#-*-coding:utf-8-*-2#@Author:1073#@File:emaildriver.py4#@explain:发邮件5importjson6importre7importsmtplib8
  • 2022-10-09NLP之基于Seq2Seq和注意力机制的句子翻译
    Seq2Seq(Attention)@目录Seq2Seq(Attention)1.理论1.1机器翻译1.1.1模型输出结果处理1.1.2BLEU得分1.2注意力模型1.2.1Attention模型1.2.2Seq2Seq(Attention)模型结
  • 2022-10-05【NeurIPS 2022】SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation
    【NeurIPS2022】SegNeXt:RethinkingConvolutionalAttentionDesignforSemanticSegmentation代码:https://github.com/Visual-Attention-Network/SegNeXt1、研究
  • 2022-09-18NLP之基于Transformer的句子翻译
    """Task:基于Transformer的句子翻译Author:[email protected]/Cheng0829Email:[email protected]:2022/09/17Reference:TaeHwanJung(JeffJu