• 2024-08-10Turbo Sparse:关于LLM稀疏性的探索
    本文地址:https://www.cnblogs.com/wanger-sjtu/p/18352898关于llama稀疏性的观察llama原始模型的FFN计算过程为:\[f(x)=\text{silu}(xW_{Gate})\odotxW_{UP}\timesW_{Down}\]classFeedForward(nn.Module):defforward(self,x):returnself.w2(F.silu(sel