ffn

2024-08-10Turbo Sparse:关于LLM稀疏性的探索
本文地址：https://www.cnblogs.com/wanger-sjtu/p/18352898关于llama稀疏性的观察llama原始模型的FFN计算过程为：\[f(x)=\text{silu}(xW_{Gate})\odotxW_{UP}\timesW_{Down}\]classFeedForward(nn.Module):defforward(self,x):returnself.w2(F.silu(sel
2024-07-27ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference论文阅读笔记
Motivation&Abs文章关注的任务为用VLM（如CLIP）做开放词汇分割，motivation主要来自于作者的一个观察：分割图中的噪声主要来自于残差连接，这会导致在文本-图像预训练更加强调全局特征，从而牺牲了局部判别能力，从而导致了分割结果中的噪声。为此作者提出了ClearCLIP，对CLIP的特征进行解耦，
2024-06-11Transformer的知识在哪里：从FFN出发
前情提要：前阵子，或许更早之前，笔者关于MoE的一些研究——如果称得上是研究，而非民科的话——让人不禁思考Transformer的知识到底存在哪里？这个问题的价值不言而喻，用来打发时间也是个不错的选择。可惜的是，目前我关于它的思考仍旧十分细碎，或许也称不上有什么新意，这里只是做下暂且
2024-04-08Transformer模型-Feed Forward前馈网络和Relu激活函数的简明介绍
今天介绍transformer模型的FeedForwardnetwork前馈网络和Relu激活函数背景位置感知Position-Wise前馈网络（FFN）由两个全连接层（fullyconnecteddenselayers，就是线性层（LinearLayer），或密集层（DenseLayer））组成，或者也可以称为多层感知机（MLP：multi-layerperceptron）。参见：Tr
2022-12-07【ARXIV2211】Efficient multi-order gated aggregation network
作者认为，交互复杂性是视觉识别一个重要特点。为此，作者通过复杂特征交互构建了一个纯卷积的网络MogaNet用于图像识别。MogaNet的整体框架如下图所示，架构和一般的Transfo
2022-11-18【ARXIV2207】LightViT: Towards Light-Weight Convolution-Free Vision Transformers
【ARXIV2207】LightViT:TowardsLight-WeightConvolution-FreeVisionTransformers论文地址：https://arxiv.org/abs/2207.05557代码地址：https://github.com/hunto/Li
2022-10-30关于Transformer中feed forward layer理解
今天记录一下个人关于Transformer中前馈神经网络（FFN）的一点理解。我们知道，FFN之前是有一个多头注意力机制的模块。我们可以想想一下，如果这个模块直接输出，不经过FFN层会发生
2022-08-1768transformer
点击查看代码importmathimportpandasaspdimporttorchfromtorchimportnnfromd2limporttorchasd2l#@saveclassPositionWiseFFN(nn.Module):"""
2022-08-1769BERT
点击查看代码importmathimportpandasaspdimporttorchfromtorchimportnnfromd2limporttorchasd2l#@saveclassPositionWiseFFN(nn.Module):"""