网站首页
编程语言
数据库
系统相关
其他分享
编程问答
GQA
2024-12-18
LLaMA (以LLaMA2为例,文末附加对比1 2 3 三个版本的变化)
一、背景LLaMA2和LLaMA2-Chat参数规模:70亿、130亿和700亿数据和训练规模:上下文长度训练资源性能表现:二、预训练pretraining1.预训练数据·训练语料来自公开课用的数据源,不包括Meta的产品或服务数据·在2万亿个数据tokens上进行了训练·对真实的数据源进行上采
2024-11-28
【NLP高频面题 - LLM架构篇】LLM为何使用GQA代替MHA?
【NLP高频面题-LLM架构篇】LLM为何使用GQA代替MHA?重要性:★★