首页 > 其他分享 >ICML 2024 | 新型傅立叶微调来了!脱离LoRA架构,训练参数大幅减少

ICML 2024 | 新型傅立叶微调来了!脱离LoRA架构,训练参数大幅减少

时间:2024-05-28 20:46:30浏览次数:24  
标签:ICML 模型 微调 2024 傅立叶 自然语言 LoRA CV

前言 本文介绍了香港科技大学(广州)的一篇关于大模型高效微调(LLM PEFT Fine-tuning)的文章「Parameter-Efficient Fine-Tuning with Discrete Fourier Transform」,本文被 ICML 2024 接收,代码已开源。

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

本文转载自机器之心

仅用于学术分享,若侵权请联系删除

CV方向的准研究生们,未来三年如何度过?

招聘高光谱图像、语义分割、diffusion等方向论文指导老师

论文标题:Parameter-Efficient Fine-Tuning with Discrete Fourier Transform

论文链接:

https://arxiv.org/abs/2405.03003

项目链接:

https://github.com/Chaos96/fourierft

背景

大型基座模型在自然语言处理(NLP)和计算机视觉(CV)领域都获得了瞩目的成就。微调(Finetuning)大型基座模型,使其更加适应特殊的下游任务,成为了一项热门研究课题。然而,在模型越来越大,下游任务越来越多样的今天,微调整个模型带来的计算、存储消耗已大到不再能被接受。

LoRA 采用低秩拟合微调增量的方案,成功降低了大量的此类消耗,但每个适应器(adapter)的大小仍然是不可忽视的。这激发了本文的核心问题:相比 LoRA,如何进一步大幅减少可训练参数?此外,一个有趣的附加问题是能否采用更少的参数量得到高秩增量矩阵。

方法

傅立叶基底在各类数据压缩应用中广泛使用,例如一维向量信号和二维图像的压缩。在这些应用中,稠密的空域信号通过傅立叶变换被转化为稀疏的频域信号。基于这一原理,作者推测模型权重的增量也可以被视为一种空域信号,其对应的频域信号可以通过稀疏表示来实现。在这一假设的基础上,作者提出了一种新的方法,用于在频域中学习增量权重信号。具体来说,该方法通过随机位置的稀疏频域信号来表示空域权重增量。在加载预训练模型时,首先随机选择 n 个点作为有效的频域信号,然后将这些信号拼接成一个一维向量。

在前向传播过程中,这个一维向量被用来通过傅立叶变换恢复空域矩阵;在反向传播过程中,由于傅里叶变换的可导性,可以直接对此可学习的向量进行更新。这种方法不仅有效减少了模型微调时所需的参数数量,同时保证了微调性能。通过这种方式,作者不仅实现了对大规模基础模型的高效微调,还展示了傅立叶变换在机器学习领域中的潜在应用价值。

得益于傅立叶变换基底的高信息量,仅需很小的 n 值即可达到与 LoRA 相当甚至超过 LoRA 的表现。一般来说,傅立叶微调的可训练参数仅为 LoRA 的千分之一到十分之一。

实验1. 自然语言理解

作者在自然语言理解的 GLUE 基准测试上对傅立叶微调方法进行了评估。基线对比方法包括全量微调(FF,Full Finetuning)、Bitfit、适应器微调(Adapter Tuning)、LoRA、DyLoRA 和 AdaLoRA。下表展示了各种方法在 GLUE 各个任务上的表现及其所需的训练参数量。结果表明,傅立叶微调以最少的参数量达到了甚至超越了其他微调方法的性能。

2. 自然语言指令微调

大模型的自然语言生成是目前模型微调的重要应用领域。作者在 LLaMA 系列模型、MT-Bench 任务和 Vicuna 任务上评估了傅立叶微调的性能。结果显示,傅立叶微调以极低的训练参数量达到了与 LoRA 相似的效果,进一步验证了傅里叶微调方法的通用性和有效性。

3. 图像分类

作者在 Vision Transformer 上测试了傅里叶微调的性能,涵盖了 8 个常见的图像分类数据集。实验结果表明,虽然在图像分类任务中傅立叶微调相较LoRA的压缩率提升并不比自然语言任务中显著,但其仍然以远小于 LoRA 的参数量超越了 LoRA 的效果。这进一步展示了傅立叶微调在不同应用领域中的有效性和优势。

4. 突破低秩

在 GLUE 基准的 RTE 数据集上,FourierFT 可以实现明显高于 LoRA (通常为 4 或 8) 的增量的秩。

5. GPU 资源消耗

微调过程中,FourierFT 可以实现比 LoRA 更少的 GPU 消耗。下图为采用单张 4090 显卡在 RoBERTa-Large 模型上的巅峰内存消耗。

 

结论作者介绍了一种名为傅立叶微调的高效微调方法,通过利用傅里叶变换来减少大基础模型微调时的可训练参数数量。该方法通过学习少量的傅里叶谱系数来表示权重变化,显著降低了存储和计算需求。实验结果显示,傅立叶微调在自然语言理解、自然语言生成、指令调优和图像分类等任务上表现优异,与现有的低秩适应方法(如 LoRA)相比,傅立叶微调在保持或超过 LoRA 性能的同时,所需的可训练参数大幅减少。

 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

分享一个CV知识库,上千篇文章、专栏,CV所有资料都在这了

明年毕业,还不知道怎么做毕设的请抓紧机会了

LSKA注意力 | 重新思考和设计大卷积核注意力,性能优于ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM:微软亚洲研究院用知识蒸馏改进小型ViT

ICCV2023|涨点神器!目标检测蒸馏学习新方法,浙大、海康威视等提出

ICCV 2023 Oral | 突破性图像融合与分割研究:全时多模态基准与多交互特征学习

听我说,Transformer它就是个支持向量机

HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法

南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题,即插即用真的很香

1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4

SAM-Med2D:打破自然图像与医学图像的领域鸿沟,医疗版 SAM 开源了!

GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR

Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星

CSUNet | 完美缝合Transformer和CNN,性能达到UNet家族的巅峰!

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

标签:ICML,模型,微调,2024,傅立叶,自然语言,LoRA,CV
From: https://www.cnblogs.com/wxkang/p/18218796

相关文章

  • 顶刊TPAMI 2024 | PERF:一张2D全景图可合成高质量的360度3D场景
    前言 本文提出了一种新的方法解决单张2D全景图恢复360度3D全景问题,利用扩散模型的先验知识和单目深度估计器进行合作修补大尺度遮挡区域,并提出了一种新的冲突避免策略,实现了当前最佳的单张全景图恢复360度3D场景的效果。欢迎关注公众号CV技术指南,专注于计算机视觉的技......
  • .NET周刊【5月第3期 2024-05-26】
    国内文章开源低代码框架ReZeroAPI正式版本发布,界面操作直接生成APIhttps://www.cnblogs.com/sunkaixuan/p/18201175ReZero是一款.NET6+的中间件,采用MIT许可证开源,目的是降低.NETCore开发的门槛。它提供界面操作生成API的功能,支持集成到各种.NET项目中。它还提供了一系列的......
  • 【最新区块链论文录用资讯】CCF A—INFOCOM 2024 共17篇
    Conference:IEEEInternationalConferenceonComputerCommunicationsCCFlevel:CCFACategories:计算机网络Year:2024Num:17AGenericBlockchain-basedSteganographyFrameworkwithHighCapacityviaReversibleGAN通过可逆GAN实现高容量的基于区块链的通用隐......
  • 2024年2月修订颁布《中华人民共和国保守国家秘密法》的背景和意义不包括()。
    2024年2月修订颁布《中华人民共和国保守国家秘密法》的背景和意义不包括()。完整详细答案A.积极应对新发展阶段保密工作形势任务的迫切需要B.加强保密法治建设的必然要求C.加强个人隐私保护的客观要求下列关于涉密载体管理说法错误的是()A.将涉密载体保存在安全保密的场所和......
  • 2024版能源领域网络与数据安全政策全集
    能源是工业的粮食,能源安全事关国家根本安全。当今国际局势风云变幻,全球地缘政治、经济、科技体系正经历深刻变化,能源局势将更加错综复杂,威胁能源安全的各种“灰犀牛”“黑天鹅”事件时有发生,促使国际能源版图深刻变迁。作为世界最大的能源消费国,如何有效保障国家能源安全、有力......
  • RCTF 2024 WEB wp
    RCTF2024WEBwp前言赛后复现,proxy发现自己真是个呆b...what_is_love首先拿key1,sql语句处有注入,可以盲注拿key1的值importrequestsimportstringstrings=string.digits+string.ascii_uppercase+"_"url="http://1.94.13.174:10088/key1"flag='RCTF{'paylo......
  • SOLIDWORKS正版一年多少钱 2024版报价
    SOLIDWORKS软件作为一款优秀的三维设计工具,以其强大的功能和优质的设计工具,为设计师们提供了前所未有的便利。SOLIDWORKS三维设计软件是一款多科学集成软件,它在产品开发和制造方面发挥着重要作用。作为整个SOLIDWORKS产品开发解决方案套件的基础,SOLIDWORKSCAD软件包涵盖了多......
  • 2024盘古石取证比赛(IPA+人工智能)
    题目列表IPA部分1.分析毛雪柳的手机检材,记账APP存储记账信息的数据库文件名称是:[答案格式:tmp.db,区分大小写][★★★★☆]通过icost软件可以定位raealm数据库default.realm2.分析毛雪柳的手机检材,记账APP中,2月份总收入金额是多少:[答案格式:1234][★★★★★]下载......
  • 2024提升数字思维能力加快企业数字化转型(74页PPT)
    方案介绍:本报告的价值在于为企业提供了一套系统的提升数字思维能力、加快数字化转型的理论框架和实践指南。通过本报告的学习和应用,企业可以更加清晰地认识到数字化转型的重要性和紧迫性,明确自身在数字化转型中的优势和不足,并找到适合自己的转型路径和策略。同时,本报告也为企......
  • 2024最新ChatGPT网站源码+AI绘画系统源码,详细图文搭建教程/支持ChatGPT4.0/GPT-4o文档
    一、文章前言SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。本期针对源码系统整测试下来非常完美,那么如何搭建部署AI创作系统呢?小编这里写一个详细图文教程吧。支持GPT-4o大模型、GPTs应用、GPT语音对话、联......