又到月底了,在月初推荐论文的基础上又整理了10篇推荐阅读的论文
1、MosaicBERT
一种用于快速预训练的双向编码器。MosaicBERT是针对快速预训练优化的自定义BERT架构。主要架构修改:FlashAttention, ALiBi,门控线性单元和低精度的LayerNorm。
https://avoid.overfit.cn/post/596699031b604a53b42293212dc738ee
标签:架构,推荐,论文,2024,https,MosaicBERT From: https://www.cnblogs.com/deephub/p/17992552