首页 > 其他分享 >【论文阅读笔记】大模型微调——《LoRA: Low-Rank Adaptation of Large Language Models》

【论文阅读笔记】大模型微调——《LoRA: Low-Rank Adaptation of Large Language Models》

时间:2024-07-21 12:29:08浏览次数:10  
标签:Language Models discusion 论文 Rank Low https LoRA

论文地址:https://arxiv.org/abs/2106.09685
代码地址:https://github.com/microsoft/LoRA

目录

Introduction

Motivation

Method

Experiments

Further discusion

个人认为本篇的精髓所在,能够引用5k+的原因之一

感想

论文方法不难,不涉及复杂的数学原理和玄学的模型架构,但是可以对后面的PEFT领域起到很关键的作用,也可以算是里程碑式的作品了;个人认为是其巧妙的idea和论文中完备的实验。

标签:Language,Models,discusion,论文,Rank,Low,https,LoRA
From: https://www.cnblogs.com/marti88414/p/18314345

相关文章

  • 论文阅读:DQ-LoRe:Dual Queries with Low Rank Approximation Re-ranking for In-Contex
    大型语言模型(LLMs)展示了其基于上下文学习的卓越能力,在错综复杂的推理任务中,利用思维链(CoT)范式中的中间推理步骤来引导大型语言模型的一个很有前景的途径。然而,核心挑战在于如何有效选择范例来促进上下文学习。先前的很多工作都是围绕添加思维链,例如一致性CoT、思维树以及......
  • ChatRule: Mining Logical Rules with Large Language Models for Knowledge Graph Re
    文章目录题目摘要引言方法实验消融研究题目ChatRule:利用大型语言模型挖掘逻辑规则进行知识图推理论文地址:https://arxiv.org/abs/2309.01538摘要    逻辑规则对于揭示关系之间的逻辑联系至关重要,这可以提高推理性能并在知识图谱(KG)上提供可解释的结果。尽......
  • Evaluating the Factuality of Large Language Models using Large-Scale Knowledge G
    本文是LLM系列文章,针对《EvaluatingtheFactualityofLargeLanguageModelsusingLarge-ScaleKnowledgeGraphs》的翻译。使用大规模知识图谱评估大型语言模型的真实性摘要1引言2相关工作3方法4实验5结论摘要大型语言模型(LLMs)的出现极大地改变了人......
  • SELF-DEMOS: Eliciting Out-of-Demonstration Generalizability in Large Language Mo
    本文是LLM系列文章,针对《SELF-DEMOS:ElicitingOut-of-DemonstrationGeneralizabilityinLargeLanguageModels》的翻译。SELF-DEMOS:在大型语言模型中引入非演示泛化能力摘要1引言2相关工作3方法4实验5讨论6结论局限性摘要大型语言模型(LLM)已经显......
  • 易优CMS模板标签modelsartlist频道循环输出顶级栏目列表
    [基础用法]标签:modelsartlist(channelartlist)备注:使用channelartlist也可以正常输出描述:获取当前栏目分类的下级栏目的文档列表用法:{eyou:modelsartlisttypeid='栏目ID'type='son'loop='20'}<ahref='{eyou:fieldname='typeurl'/}'>{eyou:fi......
  • modelscope上的模型如何下载?
    modelscope上的模型如何下载?在ModelScope(魔搭)上下载模型,用户可以通过多种方式进行,主要包括直接通过网站界面下载、使用SDK(软件开发工具包)下载,以及通过Git方式下载。以下是详细的下载步骤:一、通过网站界面下载   访问ModelScope官网:       打开浏览器,访问ModelScope......
  • 大语言模型(Large Language Models, LLMs)是否需要进行数据校正
    大语言模型(LargeLanguageModels,LLMs),如GPT-3,并不总是免于数据校正的过程。实际上,即使是这些大语言模型,在数据预处理中也会涉及到一定的处理和调整。以下是为什么大语言模型在某些情况下不需要明显的批效应校正,同时在某些情况下仍然需要数据校正的原因:为什么大语言模型不需要显......
  • 大语言模型无法理解链表 Large Language Models Fails to Understand Chained Table[u
    大模型可以翻转链表,但是只能翻转单个元素链表。一但牵扯到分组操作,就不会了。Case:以K个元素为一组位翻转链表,每一组内部元素顺序不变。ReversethechainedtableingroupofKelements,don'tchangetheorderineachgroup. Handwritten: 1classNode():2......
  • Franka - Robot - Ros - Customization(定制)
    franka_gazebo的启动文件包含大量参数,您可以使用这些参数自定义行为的模拟。例如,要在一个模拟中生成两只熊猫,您可以使用以下方法:<?xmlversion="1.0"?><launch><includefile="$(findgazebo_ros)/launch/empty_world.launch"><!--Startpaused,simulationwillb......
  • Why can‘t I access GPT-4 models via API, although GPT-3.5 models work?
    题意:为什么我无法通过API访问GPT-4模型,尽管GPT-3.5模型可以工作?问题背景:I'mabletousethegpt-3.5-turbo-0301modeltoaccesstheChatGPTAPI,butnotanyofthegpt-4models.HereisthecodeIamusingtotestthis(itexcludesmyopenaiAPIkey).Theco......