- 2025-01-03阿里面试官问:为什么Transformer的FFN需要升维再降维?
阿里面试官问:为什么Transformer的FFN需要升维再降维?面试题为什么Transformer的FFN需要升维再降维?标准答案1.FFN并非简单的嵌入空间建模FFN的目标不是直接在输入维度上进行建模,而是通过一系列线性变换来拟合一个高维的映射空间。若仅使用线性基,理论上我们只需使用等同
- 2024-12-05为什么大厂设计师离职后,都降薪转产品了?
35岁设计师都去哪里了?这个问题是平时问我最多的,刚好前几天我采访了一好朋友abo,他是我入行就认识了,到现在10年多了,我记得我进阿里时候他就已经呆了三四年,如今已经呆了11年,abo在我印象,带队硬核,很帅,阿里内网的标签「阿里鹿晗」,为什么在这个环境下选择离开大厂了,去做一个产品,今
- 2024-12-01sass是怎么定义变量的?
在Sass中,定义变量使用$符号,后跟变量名,然后使用冒号:赋值。变量名可以包含字母、数字、下划线和连字符。例如:$primary-color:#007bff;$font-size:16px;$border-width:1px;这些变量可以在Sass文件中重复使用,例如:body{color:$primary-color;font-size:$font-size;
- 2024-11-23noip模拟19
A镜的绮想(mirror)签签签。配对的点对一定\(x\)相同,那用\(O(nm)\)地匹配一下,因为有几个点的\(x\)全都相同,所以\(map\)和\(umap\)会塞到\(n\timesm\)个数,显然会爆炸,只能开桶,手动把纵坐标搞成全正的,就行。点击查看代码#include<bits/stdc++.h>usingnamespac
- 2024-09-28北邮&剑桥最新SLM(小语言模型)研究综述
今天介绍的这篇文章是关于小型语言模型(SmallLanguageModels,SLMs)的研究综述,作者团队来自北京邮电大学、鹏城实验室、HelixonResearch、剑桥大学等机构。语言模型的发展目前呈现出分歧,一方面是追求人工通用智能的LLMs,在训练和推理双scalinglaw的指引下不断加大计算量;另一
- 2024-09-25EfficientViT(2023CVPR):具有级联组注意力的内存高效视觉Transformer!
EfficientViT:MemoryEfficientVisionTransformerwithCascadedGroupAttentionEfficientViT:具有级联组注意力的内存高效视觉Transformer万文长字,请耐心观看~论文地址:https://arxiv.org/abs/2305.07027代码地址:Cream/EfficientViTatmain·microsoft/Cream
- 2024-08-10Turbo Sparse:关于LLM稀疏性的探索
本文地址:https://www.cnblogs.com/wanger-sjtu/p/18352898关于llama稀疏性的观察llama原始模型的FFN计算过程为:\[f(x)=\text{silu}(xW_{Gate})\odotxW_{UP}\timesW_{Down}\]classFeedForward(nn.Module):defforward(self,x):returnself.w2(F.silu(sel
- 2024-07-27ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference论文阅读笔记
Motivation&Abs文章关注的任务为用VLM(如CLIP)做开放词汇分割,motivation主要来自于作者的一个观察:分割图中的噪声主要来自于残差连接,这会导致在文本-图像预训练更加强调全局特征,从而牺牲了局部判别能力,从而导致了分割结果中的噪声。为此作者提出了ClearCLIP,对CLIP的特征进行解耦,
- 2024-06-11Transformer的知识在哪里:从FFN出发
前情提要:前阵子,或许更早之前,笔者关于MoE的一些研究——如果称得上是研究,而非民科的话——让人不禁思考Transformer的知识到底存在哪里?这个问题的价值不言而喻,用来打发时间也是个不错的选择。可惜的是,目前我关于它的思考仍旧十分细碎,或许也称不上有什么新意,这里只是做下暂且
- 2024-04-08Transformer模型-Feed Forward前馈网络和Relu激活函数的简明介绍
今天介绍transformer模型的FeedForwardnetwork前馈网络和Relu激活函数背景位置感知Position-Wise前馈网络(FFN)由两个全连接层(fullyconnecteddenselayers,就是线性层(LinearLayer),或密集层(DenseLayer))组成,或者也可以称为多层感知机(MLP:multi-layerperceptron)。 参见:Tr
- 2022-12-07【ARXIV2211】Efficient multi-order gated aggregation network
作者认为,交互复杂性是视觉识别一个重要特点。为此,作者通过复杂特征交互构建了一个纯卷积的网络MogaNet用于图像识别。MogaNet的整体框架如下图所示,架构和一般的Transfo
- 2022-11-18【ARXIV2207】LightViT: Towards Light-Weight Convolution-Free Vision Transformers
【ARXIV2207】LightViT:TowardsLight-WeightConvolution-FreeVisionTransformers论文地址:https://arxiv.org/abs/2207.05557代码地址:https://github.com/hunto/Li
- 2022-10-30关于Transformer中feed forward layer理解
今天记录一下个人关于Transformer中前馈神经网络(FFN)的一点理解。我们知道,FFN之前是有一个多头注意力机制的模块。我们可以想想一下,如果这个模块直接输出,不经过FFN层会发生
- 2022-08-1768transformer
点击查看代码importmathimportpandasaspdimporttorchfromtorchimportnnfromd2limporttorchasd2l#@saveclassPositionWiseFFN(nn.Module):"""
- 2022-08-1769BERT
点击查看代码importmathimportpandasaspdimporttorchfromtorchimportnnfromd2limporttorchasd2l#@saveclassPositionWiseFFN(nn.Module):"""