网站首页
编程语言
数据库
系统相关
其他分享
编程问答
LongLoRA
2024-09-12
大模型微调j技术:GaLore、BAdam、Adam-mini、DoRA、LongLoRA、LLaMA Pro、Mixture-of-Depths、LoRA+、LoftQ、PiSSA的介绍
引言1.1大模型微调的重要性随着人工智能技术的飞速发展,大型语言模型(LLMs)如GPT-3、BERT等已经成为自然语言处理(NLP)领域的核心技术。这些模型通过在大规模文本数据上的预训练,掌握了丰富的语言知识和统计特征。然而,尽管这些预训练模型在通用任务上表现出色,但在特定任务或领
2024-07-18
超长上下文扩展:LongLoRA & LongQLoRA
学习链接https://blog.csdn.net/v_JULY_v/article/details/135375799目录从LongLoRA到LongQLoRA(含源码剖析):超长上下文大模型的高效微调方法第一部分LongLora:超长上下文大模型的高效微调方法1.1从PI、LoRA到LongLora1.1.1面对长文本:PI和LoRA在各自角度上的不足1.1.2LongLor