使用GaLore在本地GPU进行高效的LLM调优

时间：2024-03-25 10:12:26浏览次数：38

训练大型语言模型(llm)，即使是那些“只有”70亿个参数的模型，也是一项计算密集型的任务。这种水平的训练需要的资源超出了大多数个人爱好者的能力范围。为了弥补这一差距，出现了低秩适应(LoRA)等参数高效方法，可以在消费级gpu上对大量模型进行微调。

GaLore是一种新的方法，它不是通过直接减少参数的数量，而是通过优化这些参数的训练方式来降低VRAM需求，也就是说GaLore是一种新的模型训练策略，可让模型使用全部参数进行学习，并且比LoRA更省内存。

GaLore将这些梯度投影到低秩空间上，显著减少了计算负荷，同时保留了训练所需的基本信息。与传统的优化器在反向传播后同时更新所有层的方法不同，GaLore在反向传播期间实现逐层更新。这种方法进一步减少了整个训练过程中的内存占用。

就像LoRA一样，GaLore可以让我们在具有24 GB VRAM的消费级GPU上微调7B模型。结果模型的性能与全参数微调相当，并且似乎优于LoRA。

优于目前Hugging Face还没有官方代码，我们就来手动使用论文的代码进行训练，并与LoRA进行对比

https://avoid.overfit.cn/post/0b15de8db27040f0abcaa7e554b0b993

标签：训练,模型,GaLore,调优,参数,LLM,GPU,LoRA
From： https://www.cnblogs.com/deephub/p/18093779

【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略
超参数是估计器的参数中不能通过学习得到的参数。在scikit-learn中，他们作为参数传递给估计器不同类的构造函数。典型的例子有支持向量分类器的参数C，kernel和gamma，Lasso的参数alpha等。在超参数集中搜索以获得最佳crossvalidation交叉验证分数的方法是可实现并且推荐的......
大模型推理框架 vLLM 源码解析（二）：Block 模块分配和管理
1.Block概览vLLM的一个很大创新点是将物理层面的GPU和CPU可用内存切分成若干个block,这样可以有效降低内存碎片化问题。具体而言，vLLM的block分为逻辑层面（logical）和物理层面（physical），二者之间存在映射关系。下图很好解释了两个层面block的关系。假设每个block可以......
LLM finetune
微调微调的目的有几个：1. 和人类对齐，减少一些hullucination和toxiccontent；2.引入domainknowledge；3.做一些promptengineering低效的事情，比如不用提供大量的样本。但是也有可能因此而产生灾难性遗忘。同时需要对样本量和质量进行把控。 SFT(supervisedfine-tuning)实......
【Coursera GenAI with LLM】 Week 3 LLM-powered applications Class Notes
ModeloptimizationstoimproveapplicationperformanceDistillation:usesalargermodel,theteachermodel,totrainasmallermodel,thestudentmodel,wefreezeteacher'sweightsandgeneratecompletions,alsogeneratestudentmodel'scompl......
LLM-通义千问：新能源参考书
问题一：新能源入门参考书对于新能源技术的学习，以下是一些推荐的入门参考书籍：《新能源概论》：作者孙逢春，该书全面介绍了太阳能、风能、生物质能、海洋能等各种新能源的基本原理、利用技术及其发展趋势，适合初学者了解新能源领域的全貌。《新能源科学与工程导论》：作者张华，该书......
【视觉语言大模型+LLaVA1.0】大语言模型视觉助手（视觉指令调优）GPT4-Vision丐版
官方资源汇总：项目主页||https://huggingface.co/liuhaotian23.04.LLaVA1.论文:LargeLanguageandVisionAssistant（VisualInstructionTuning)23.10LLaVA-1.5论文:ImprovedBaselineswithVisualInstructionTuning23.11LLaVA-Plus项目：LLaVA-Plus:LargeLang......
LLM进阶——预训练语言模型
文章目录一、概念二、GPT1、概念2、自回归3、zero-shot三、bert1、概念2、maskedLM一、概念最早的预训练语言模型(plms)是word2vec，现在的模型(gpt&bert)都是基于transformer以下是一些常见的预训练语言模型分类：基于Transformer的模型：BERT（BidirectionalEncoder......
更智能的广告素材生成！看A/B测试如何驱动AIGC素材调优
更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群前言：AIGC大爆发，引发广告营销行业变革ChatGPT等AI产品引发的AIGC大爆发引起了各行业的震动，其中以图片生成甚至视频生成技术的效果和速度最为令人震撼。也正因如此，AIGC的爆发对一直以创意为核......
贝尔曼方程【Bellman Equation】
强化学习笔记主要基于b站西湖大学赵世钰老师的【强化学习的数学原理】课程，个人觉得赵老师的课件深入浅出，很适合入门.第一章强化学习基本概念第二章贝尔曼方程文章目录强化学习笔记一、状态值函数贝尔曼方程二、贝尔曼方程的向量形式三、动作值函数参考资料第......
大型LLM模型语言全面解读-开篇
目录由于1万字的要求过于庞大，我将先给出论文的大纲以及部分内容的详细撰写，以确保内容的质量和完整性。如果您需要更完整的内容，可以在之后继续输入。大型LLM模型语言全面解读**摘要：**本文旨在对大型语言模型（LargeLanguageModel，简称LLM）进行全面深入的解读，包括其定义、底层原......

使用GaLore在本地GPU进行高效的LLM调优

相关文章

赞助商

阅读排行