ffn
  • 2024-08-10Turbo Sparse:关于LLM稀疏性的探索
    本文地址:https://www.cnblogs.com/wanger-sjtu/p/18352898关于llama稀疏性的观察llama原始模型的FFN计算过程为:\[f(x)=\text{silu}(xW_{Gate})\odotxW_{UP}\timesW_{Down}\]classFeedForward(nn.Module):defforward(self,x):returnself.w2(F.silu(sel
  • 2024-07-27ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference论文阅读笔记
    Motivation&Abs文章关注的任务为用VLM(如CLIP)做开放词汇分割,motivation主要来自于作者的一个观察:分割图中的噪声主要来自于残差连接,这会导致在文本-图像预训练更加强调全局特征,从而牺牲了局部判别能力,从而导致了分割结果中的噪声。为此作者提出了ClearCLIP,对CLIP的特征进行解耦,
  • 2024-06-11Transformer的知识在哪里:从FFN出发
    前情提要:前阵子,或许更早之前,笔者关于MoE的一些研究——如果称得上是研究,而非民科的话——让人不禁思考Transformer的知识到底存在哪里?这个问题的价值不言而喻,用来打发时间也是个不错的选择。可惜的是,目前我关于它的思考仍旧十分细碎,或许也称不上有什么新意,这里只是做下暂且
  • 2024-04-08Transformer模型-Feed Forward前馈网络和Relu激活函数的简明介绍
     今天介绍transformer模型的FeedForwardnetwork前馈网络和Relu激活函数背景位置感知Position-Wise前馈网络(FFN)由两个全连接层(fullyconnecteddenselayers,就是线性层(LinearLayer),或密集层(DenseLayer))组成,或者也可以称为多层感知机(MLP:multi-layerperceptron)。 参见:Tr
  • 2022-12-07【ARXIV2211】Efficient multi-order gated aggregation network
    作者认为,交互复杂性是视觉识别一个重要特点。为此,作者通过复杂特征交互构建了一个纯卷积的网络MogaNet用于图像识别。MogaNet的整体框架如下图所示,架构和一般的Transfo
  • 2022-11-18【ARXIV2207】LightViT: Towards Light-Weight Convolution-Free Vision Transformers
    【ARXIV2207】LightViT:TowardsLight-WeightConvolution-FreeVisionTransformers论文地址:https://arxiv.org/abs/2207.05557代码地址:https://github.com/hunto/Li
  • 2022-10-30关于Transformer中feed forward layer理解
    今天记录一下个人关于Transformer中前馈神经网络(FFN)的一点理解。我们知道,FFN之前是有一个多头注意力机制的模块。我们可以想想一下,如果这个模块直接输出,不经过FFN层会发生
  • 2022-08-1768transformer
    点击查看代码importmathimportpandasaspdimporttorchfromtorchimportnnfromd2limporttorchasd2l#@saveclassPositionWiseFFN(nn.Module):"""
  • 2022-08-1769BERT
    点击查看代码importmathimportpandasaspdimporttorchfromtorchimportnnfromd2limporttorchasd2l#@saveclassPositionWiseFFN(nn.Module):"""