网站首页
编程语言
数据库
系统相关
其他分享
编程问答
24i3
2024-11-28
SSD:清华出品,可切换密集稀疏的大模型预训练加速方案 | ICML'24i3
来源:晓飞的算法工程笔记公众号,转载请注明出处论文:ExploringtheBenefitofActivationSparsityinPre-training论文地址:https://arxiv.org/abs/2410.03440论文代码:https://github.com/thunlp/moefication:westworld加速创新点研究了激活属性在预训练过程中的变