首页 > 其他分享 >LoRA及其变体概述:LoRA, DoRA, AdaLoRA, Delta-LoRA

LoRA及其变体概述:LoRA, DoRA, AdaLoRA, Delta-LoRA

时间:2024-03-15 12:22:51浏览次数:22  
标签:模型 AdaLoRA DoRA Delta 变体 LoRA

LoRA可以说是针对特定任务高效训练大型语言模型的重大突破。它被广泛应用于许多应用中。在本文中,我们将解释LoRA本身的基本概念,然后介绍一些以不同的方式改进LoRA的功能的变体,包括LoRA+、VeRA、LoRA- fa、LoRA-drop、AdaLoRA、DoRA和Delta-LoRA。

Lora

低秩自适应(Low-Rank adaptation, LoRA)[1]是目前广泛用于训练大型语言模型(large language models, llm)的一种技术。大型语言模型可以为我们生成各种内容,但对于解决许多问题来说,我们还是希望在给定的下游任务上训练LLM,例如对句子进行分类或生成给定问题的答案。但是如果直接使用微调,这就需要要训练有数百万到数十亿个参数的大模型。

 

https://avoid.overfit.cn/post/76413f0a06ec48b08186b28f88da206f

标签:模型,AdaLoRA,DoRA,Delta,变体,LoRA
From: https://www.cnblogs.com/deephub/p/18075147

相关文章

  • lora训练参数设置
    LoRA训练主要基于:https://github.com/bmaltais/kohya_ss/tree/master开源代码,自带GUI,可以可视化训练转载:https://zhuanlan.zhihu.com/p/640274202Lora训练核心参数主要分为步数相关和速率、质量相关,接下来就展开讲讲。步数相关Image:训练集,原图质量越高,模型质量越好。Repeat:学......
  • 【LLM实战】 基于QLoRA对微软Phi-2进行对话摘要任务微调
    本文将在DialogSum数据集上使用2张T4卡对2.7B的microsoft/phi2进行LORA微调。博客翻译自Kaggle项目fine-tuning-llm-for-dialogue-summarizationhttps://www.kaggle.com/code/aisuko/fine-tuning-llm-for-dialogue-summarization一、安装依赖首先,安装依赖包%%capture!pip......
  • P10238 [yLCPC2024] F. PANDORA PARADOXXX 题解
    分析考虑时光倒流。对于需要合并的两个连通块\(x,y\),其合并之后的最远点对距离一定是合并之前的两组点对中产生的。在合并的时候枚举点对,取距离最大值即可。由于我们是倒着来的,所有连通块的最远点对距离最大值不减,所以能直接在合并之后取最大值。维护连通块用并查集即可。复杂......
  • 基于SWIFT和Qwen1.5-14B-Chat进行大模型LoRA微调测试
    基于SWIFT和Qwen1.5-14B-Chat进行大模型LoRA微调测试环境准备基础环境操作系统:Ubuntu18.04.5LTS(GNU/Linux3.10.0-1127.el7.x86_64x86_64)Anaconda3:Anaconda3-2023.03-1-Linux-x86_64根据服务器网络情况配置好conda源和pip源,此处使用的是超算山河源服务器硬件配置:CPU......
  • Lora的微调
    背景利用微调的方法对大模型进行微调。目前Lora是高效微调的方法之一。这里记录一下微调的方法和一些博客。微调方法Lora的方法是在模型参数外套一个壳,在论文中,作者是对注意力权重Q(K或者V)进行微调。当然也可以对其他网络进行微调例如,MLP(多层感知机)、LayerNorm层微调。Huggingf......
  • QLoRa 低秩分解+权重量化的微调
    QLoRa的核心思想是首先使用低秩分解技术降低参数的数量,然后对这些低秩表示的参数应用量化技术,进一步减少所需的存储空间和计算量。低秩分解低秩分解(Low-RankFactorization):通过将模型中的权重矩阵分解为更小的矩阵乘积,减少模型中的参数数量。参看:LoRA微调和低秩矩阵这种方法......
  • LoRA 微调和低秩矩阵
    LoRA(Low-RankAdaptation)是一种技术,旨在有效调整大型语言模型,以适应特定任务,而无需重新训练整个模型。在论文《LORA:LOW-RANKADAPTATIONOFLARGELANGUAGEMODELS》(https://arxiv.org/abs/2106.09685)中给出了具体方法:通过对模型中的参数进行低秩更新,来实现对大型预训练语言模......
  • mysql 怎么启动服务 Linux CentOS和Fedora Windows系统
    mysql怎么启动服务<p>mysql是一个免费的开源数据库管理系统,广泛应用于web应用程序开发,是linux/unix系统中最常用的数据库之一,这篇文章将介绍如何启动mysql服务。</p>一、Linux系统下启动MySQL服务使用默认命令使用默认命令启动MySQL服务十分简单,只需使用......
  • lightdb plorasql 编译期间检查功能增强
    背景lightdb为兼容Oracle的存储过程创建了plorsql核心插件。在lightdb23.4及之前版本,plorasql存储过程只支持基本的语法校验(check_function_bodies=on时)。从lightdb24.1版本开始,lightdb新增GUC参数lightdb_analyze_function_bodies,当该参数为on时,将会开启......
  • 使用LORA微调RoBERTa
    模型微调是指在一个已经训练好的模型的基础上,针对特定任务或者特定数据集进行再次训练以提高性能的过程。微调可以在使其适应特定任务时产生显着的结果。RoBERTa(RobustlyoptimizedBERTapproach)是由FacebookAI提出的一种基于Transformer架构的预训练语言模型。它是对Google提......