探索混合专家(MoE)模型预训练:开源项目实操
Mantaverse 来自知乎
目录
收起
MOE模型是什么
实现Moe 模型
实现步骤拆解
1. 初始化和形状调整
2. 计算路由器的logits
3. 初始化和创建专家掩码
4. 循环计算专家层输出
5. 恢复形状并返回结果
预训练效果对比
Deepseek MoE
结语
MOE模型是什么
相比于传统的Dense模型,MoE(Mixture of Experts)模型在结构上进行了优化,特别是在线性投影层方面。MoE模型将单一的全连接层替换成多个专家层(例如,Mixtral使用了8个专家层)。在Switch Transformer的论文中,我们了解到,每次进行token预测时,模型会从这8个专家层中选出两个用于线性推理。这种方法旨在提高模型的性能和效率。
标签:MoE,专家,开源,实操,模型,MOE From: https://blog.csdn.net/sinat_37574187/article/details/140448057