• 2024-09-12大模型微调j技术:GaLore、BAdam、Adam-mini、DoRA、LongLoRA、LLaMA Pro、Mixture-of-Depths、LoRA+、LoftQ、PiSSA的介绍
    引言1.1大模型微调的重要性随着人工智能技术的飞速发展,大型语言模型(LLMs)如GPT-3、BERT等已经成为自然语言处理(NLP)领域的核心技术。这些模型通过在大规模文本数据上的预训练,掌握了丰富的语言知识和统计特征。然而,尽管这些预训练模型在通用任务上表现出色,但在特定任务或领
  • 2024-07-18超长上下文扩展:LongLoRA & LongQLoRA
    学习链接https://blog.csdn.net/v_JULY_v/article/details/135375799目录从LongLoRA到LongQLoRA(含源码剖析):超长上下文大模型的高效微调方法第一部分LongLora:超长上下文大模型的高效微调方法1.1从PI、LoRA到LongLora1.1.1面对长文本:PI和LoRA在各自角度上的不足1.1.2LongLor