FFN
  • 2024-11-13【阅读文献笔记】TransXNet: Learning Both Global and LocalDynamics with a Dual Dynamic Token Mixer
    从经典的ViTs说起,即基于MHSA构建远距离建模实现全局感受野的覆盖,但缺乏像CNNs般的归纳偏差能力。因此在泛化能力上相对较弱,需要大量的训练样本和数据增强策略来弥补。针对这个问题,SwinTransformer率先引入了移位窗口自注意力来引入归纳偏差并减少计算成本。然而,作者
  • 2024-11-09大模型面试题:LLAMA中的FFN层作用是什么?
    更多面试题的获取方式请留意我的昵称或看评论区LLAMA中的FFN层作用是什么?总结上网上看到的一些分析,毕竟当时Transformer提出来的时候,可能也没考虑到会被研究的这么细。模型结构本身[AttentionisNotAllYouNeed:PureAttentionLosesRankDoublyExponentiallywit
  • 2024-11-02大模型面试题:LLAMA中的FFN层作用是什么?
    获取更多面试真题的集合,请移步至 https://i.afbcs.cn/naPbNY总结上网上看到的一些分析,毕竟当时Transformer提出来的时候,可能也没考虑到会被研究的这么细。模型结构本身[AttentionisNotAllYouNeed:PureAttentionLosesRankDoublyExponentiallywithDepth]论文
  • 2024-10-29ClearCLIP:倒反天罡,删除两个组件反而可以提升密集预测性能 | ECCV'24
    来源:晓飞的算法工程笔记公众号,转载请注明出处论文:ClearCLIP:DecomposingCLIPRepresentationsforDenseVision-LanguageInference论文地址:https://arxiv.org/abs/2407.12442论文代码:https://github.com/mc-lan/ClearCLIP创新点发现两个关键因素在将CLIP适配密
  • 2024-09-28北邮&剑桥最新SLM(小语言模型)研究综述
    今天介绍的这篇文章是关于小型语言模型(SmallLanguageModels,SLMs)的研究综述,作者团队来自北京邮电大学、鹏城实验室、HelixonResearch、剑桥大学等机构。语言模型的发展目前呈现出分歧,一方面是追求人工通用智能的LLMs,在训练和推理双scalinglaw的指引下不断加大计算量;另一
  • 2024-09-25EfficientViT(2023CVPR):具有级联组注意力的内存高效视觉Transformer!
    EfficientViT:MemoryEfficientVisionTransformerwithCascadedGroupAttentionEfficientViT:具有级联组注意力的内存高效视觉Transformer万文长字,请耐心观看~论文地址:https://arxiv.org/abs/2305.07027代码地址:Cream/EfficientViTatmain·microsoft/Cream
  • 2024-08-10Turbo Sparse:关于LLM稀疏性的探索
    本文地址:https://www.cnblogs.com/wanger-sjtu/p/18352898关于llama稀疏性的观察llama原始模型的FFN计算过程为:\[f(x)=\text{silu}(xW_{Gate})\odotxW_{UP}\timesW_{Down}\]classFeedForward(nn.Module):defforward(self,x):returnself.w2(F.silu(sel
  • 2024-07-27ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference论文阅读笔记
    Motivation&Abs文章关注的任务为用VLM(如CLIP)做开放词汇分割,motivation主要来自于作者的一个观察:分割图中的噪声主要来自于残差连接,这会导致在文本-图像预训练更加强调全局特征,从而牺牲了局部判别能力,从而导致了分割结果中的噪声。为此作者提出了ClearCLIP,对CLIP的特征进行解耦,
  • 2024-06-11Transformer的知识在哪里:从FFN出发
    前情提要:前阵子,或许更早之前,笔者关于MoE的一些研究——如果称得上是研究,而非民科的话——让人不禁思考Transformer的知识到底存在哪里?这个问题的价值不言而喻,用来打发时间也是个不错的选择。可惜的是,目前我关于它的思考仍旧十分细碎,或许也称不上有什么新意,这里只是做下暂且
  • 2024-04-08Transformer模型-Feed Forward前馈网络和Relu激活函数的简明介绍
     今天介绍transformer模型的FeedForwardnetwork前馈网络和Relu激活函数背景位置感知Position-Wise前馈网络(FFN)由两个全连接层(fullyconnecteddenselayers,就是线性层(LinearLayer),或密集层(DenseLayer))组成,或者也可以称为多层感知机(MLP:multi-layerperceptron)。 参见:Tr
  • 2022-12-07【ARXIV2211】Efficient multi-order gated aggregation network
    作者认为,交互复杂性是视觉识别一个重要特点。为此,作者通过复杂特征交互构建了一个纯卷积的网络MogaNet用于图像识别。MogaNet的整体框架如下图所示,架构和一般的Transfo
  • 2022-11-18【ARXIV2207】LightViT: Towards Light-Weight Convolution-Free Vision Transformers
    【ARXIV2207】LightViT:TowardsLight-WeightConvolution-FreeVisionTransformers论文地址:https://arxiv.org/abs/2207.05557代码地址:https://github.com/hunto/Li
  • 2022-10-30关于Transformer中feed forward layer理解
    今天记录一下个人关于Transformer中前馈神经网络(FFN)的一点理解。我们知道,FFN之前是有一个多头注意力机制的模块。我们可以想想一下,如果这个模块直接输出,不经过FFN层会发生
  • 2022-08-1768transformer
    点击查看代码importmathimportpandasaspdimporttorchfromtorchimportnnfromd2limporttorchasd2l#@saveclassPositionWiseFFN(nn.Module):"""
  • 2022-08-1769BERT
    点击查看代码importmathimportpandasaspdimporttorchfromtorchimportnnfromd2limporttorchasd2l#@saveclassPositionWiseFFN(nn.Module):"""