LLaMA
-
预训练Token数量 1.4T
- CommonCrawl,C4:互联网网页
- github:代码
- wikipedia:百科
- books,arxiv:书籍论文
- StackExchange:科学问答
-
pre-norm + RMSNorm
- \(Pre Norm: x_{t+1}=x_t+F(Norm(x_t))\)
- \(Post Norm: x_{t+1}=Norm(x_t+F(x_t))\)
- 关于两者的讨论可以参考 博客
- RMSNorm:计算减少,效果不差
- layernorm:re-scale(方差)+ re-center(均值)
- RMSNorm:re-scale(方差)
-
FFN->SwiGLU
- FFN: $ max(0,xW_1 )W_2 $
- SiLU:$ x*sigmoid(x)$,零点附近梯度较为友好
- SwiGLU: $ (SiLU(xW_{gate}) ⊗ xW_1 )W_2 $
-
RoPE
-
上下文长度2048
LLaMA-2
- 预训练Token数量 2T
- pre-norm + RMSNorm(layerNorm的简化版)
- SwiGLU activation function
- RoPE
- 上下文长度4096
- GQA(grouped-query attention)