首页 > 其他分享 >视觉语言模型的高效迁移学习

视觉语言模型的高效迁移学习

时间:2024-10-30 13:41:58浏览次数:1  
标签:模态 高效 Prompt 模型 测试 视觉 迁移 方法 Adapter

随着CLIP的出现,如何将大规模预训练的模型高效地迁移到小样本的下游任务中,成为了一个新的挑战。
根据方法策略的不同可以分为两类:Prompt-based方法和Adapter-based方法。Prompt-based和Adapter-based方法中,我们又可以根据梯度是否经过编码器,将其细分为两类:梯度经过编码器的方法和梯度不经过编码器的方法。此外,一部分迁移的方法专注于给定少样本的情况,另一部分迁移的方法则专注于测试时适应。
梯度经过编码器的Prompt-based方法可以分为:文本模态、视觉模态和双模态。
文本模态的Prompt Learning:CoOp(Context Optimization)将NLP领域的Prompt Learning迁移到视觉语言模型中。给定少量数据集和模板(如“a photo of [class]”),CoOp优化前几个输入的token,使模型能够更好地适应特定任务。TPT(Test-time Prompt Tunning)在测试时适应的过程中最小化不同增强视角的平均熵来优化prompt,与CoOp方法可以无缝集成。
视觉模态的Prompt Learning:VPT在视觉输入中嵌入可学习的token,将这些token作为额外的输入嵌入到视觉编码器中,对视觉特征进行调整。
双模态的Prompt Learning:UPT在将双模态的可学习的token送入编码器之前,经过一个Transformer网络处理,增强了模态之间token的表达能力。MaPle在文本和视觉端的token之间加入了一个可学习的线性层,使得两种模态的token耦合,产生更强的联系。Prompt-align将MaPle进一步扩展至测试时适应,计算支持集的图片的编码之后的token的均值和方差并在测试时将测试图片的token的均值和方差向支持集拉近。
梯度经过编码器的Adapter-based方法有CLIP-LoRA和MMA(Multi-modal Adapter)。CLIP-LoRA将LoRA微调大语言模型的经验应用到少样本微调中,通过微调CLIP模型文本端和图像端的Query、Key和Value矩阵,实现高效的参数更新。MMA在Transformer层之间加入了文本和图像端耦合的Adapter模块,增强了多模态信息的融合。
梯度不经过编码器的Prompt-based主要为TaskRes。TaskRes在文本端学习一个残差,仅调整文本编码器的输出。相比CoOp,TaskRes方法简单更小,效果更佳。类似的,TPS方法选择在测试时调整改残差。梯度不经过编码器意味我们只需要编码一次,同时我们可以更好的利用外部知识,因为我们不受到CoOp中模版的限制。我们可以向LLM中获得更加丰富的Prompt,参考CuPL的工作。
梯度不经过编码器的Adapter-based的方法:Tip-Adapter使用一个简单的缓存模块,将训练集的图像特征存成Key,标签作为Value。测试时,输入图像通过编码器得到的特征作为Query,与缓存中的Key进行匹配,实现快速的少样本适应。CaFo利用大型语言模型(LLM)的外部知识扩充概念,并借助生成模型来扩充少量的数据集,提高模型的泛化能力。DMN设计了一个动态记忆和静态记忆模块,随着测试样本的增多,动态记忆不断被填满,提高模型性能。TDA设置了一个正样本缓存模块和负样本缓存模块,随着测试样本的不断增多,更新缓存模块。Dual-Adapter和Cluster-Adapter:这两种方法在视觉和文本端针对编码后的原型共同学习残差,增强了多模态的适应性。DPE则在测试时适应的过程中共同学习文本和图像端的残差,保持了模型的泛化能力。
通过对以上方法的调研,我发现当前的高效迁移学习方法存在以下主要问题和挑战:
1.高效迁移学习加剧了CLIP模型的类别偏差
现有的高效迁移学习方法虽然能够在少样本学习中提升模型的性能,但也加剧了CLIP模型在零样本任务中固有的类别偏差问题。CLIP模型基于大规模的多模态数据进行训练,天然具有良好的泛化能力,但由于类别分布的不均匀,模型对某些类别的学习较为充分,而对其他类别的学习则几乎完全失败。在少样本场景中,这种偏差更加明显,因为少数类别的训练样本更为稀少,模型容易忽略这些类别,甚至出现类别完全崩塌的现象。例如,使用CoOp等Prompt-based方法时,模型可能过度拟合于频繁出现的类别,对罕见类别的表现却极差。
2.测试时过度依赖监督信号,训练与测试不统一
现有的一些测试时适应的方法在测试阶段过度依赖监督信号,同时缺乏训练和测试的统一。DMN和TDA这两种方法在测试时引入了伪标签或缓存模块,对测试数据施加了明确的监督信号。虽然在理论上提升了模型的测试准确性,但却忽视了对数据分布的学习能力,可能导致模型的确认偏差,进一步扩大类别之间的差异。目前,仅有DMN,TPT+CoOp,TPS+TaskRes可以做到在既能给定小样本的情况下训练,又能测试时适应,一个高效准确的方法应当既能在有数据的情况下适应,也能在测试时适应。
3.模型参数和超参数复杂度增加,应用成本高
为了提升模型的性能,现有的高效迁移学习方法往往增加了大量的参数和超参数,导致模型复杂度和应用成本增加。Tip-Adapter对于不同的数据集,需要设置不同的参数,人为地加入了先验知识,缺乏统一的标准。MaPLe等方法在模型结构中引入了较多新的可学习层或模块,增加了模型的参数量和复杂度。超参数过多不仅增加了模型训练和调试的难度,也使得方法之间缺乏公平的比较,影响了实际应用。
4.文本与图像模态利用不足,模态融合效果不佳
当前的方法在多模态信息的融合上存在明显不足,具体表现在:Prompt生成未结合图像信息:现有的Prompt多依赖于预设的模板或外部的语言模型生成,未能根据输入图像的内容动态调整,导致文本和图像模态之间的联系不足。视觉端的噪声干扰:如VPT方法在视觉端引入可学习的token,但这些token与输入图像的实际内容并无直接关系,无法根据图像的变化进行灵活调整。少样本情况下,模型容易受到图像中的背景噪声干扰,无法有效提取前景目标的信息。
5.训练集拟合与CLIP基础模型泛化能力的平衡
现有的高效迁移学习方法在提高模型适应性的同时,往往会过度拟合训练集,导致CLIP基础模型的泛化能力下降。现有的解决方案主要有两种,残差学习方法:TaskRes、Dual-Adapter、Cluster-Adapter等方法通过在编码器输出上学习残差,尝试在拟合训练集和保持模型泛化能力之间取得平衡。一致性正则方法:CoPrompt,在微调的过程中引入对比损失,保持微调后的模型与原始模型之间的特征一致性,避免过度偏离原始模型的分布。然而,这些方法在实际应用中仍需要在性能和泛化能力之间进行权衡,找到最佳的平衡点。
最后我认为未来的研究应该从以下几个方向上展开:
1、平衡类别学习,减少偏差:未来可以探索新的损失函数或数据平衡策略,减少类别偏差。
2、统一训练和测试策略:耦合训练和测试时适应,减少对测试时伪标签的依赖
3、降低模型复杂度,提高实用性:简化模型结构,减少参数和超参数的数量。
4、加强模态融合,提升多模态协同效果:在Prompt生成和特征提取过程中,充分利用图像和文本的模态信息,增强多模态协同效果
5、保持模型的泛化能力,避免过度拟合:引入其他领域的方法,在微调的同时保持原始模型的泛化特性,避免过度拟合训练集。

(随手写的,很多优秀的方法现在回看依然没有写上,如一致性正则的一些方法,以及一些最新的方法)

标签:模态,高效,Prompt,模型,测试,视觉,迁移,方法,Adapter
From: https://www.cnblogs.com/zhaihaotian/p/18515706

相关文章

  • 在K8S中,有一种情况,公司希望通过保持最低成本来提高效率和技术运营速度,该公司实该如何
    在Kubernetes(K8s)环境中,公司若希望通过保持最低成本来提高效率和技术运营速度,可以采取以下详细策略:一、优化资源配置与利用设置资源请求与限制:为容器设置合理的资源请求(Requests)和限制(Limits),确保它们在不浪费资源的同时获得必要的计算资源。这有助于防止单个容器占用过多的资......
  • 闲一品交易:SpringBoot框架的高效解决方案
    第4章系统设计4.1系统体系结构闲一品交易平台的结构图4-1所示:图4-1系统结构登录系统结构图,如图4-2所示:图4-2登录结构图闲一品交易平台结构图,如图4-3所示。图4-3闲一品交易平台结构图4.2开发流程设计系统流程的分析是通过调查系统所涉及问题的识别、可行性......
  • 乐维网管平台(三)如何高效管理无线网络
    一、无线网络管理概述1.什么是无线网络管理无线网络管理是指利用专门的软件平台(如网管平台)对无线网络设备(如无线接入点、无线控制器等)及其相关资源进行集中监控、配置、优化和维护的一系列操作。其主要目的是确保无线网络的高效稳定运行,提升用户体验,保障网络安全。2.无线网络管......
  • 揭秘 SpringBoot AOP:让你的代码更优雅、更高效
    引言在现代软件开发中,编写高效、可维护的代码是每个开发者的追求。SpringBoot作为一个强大的开发框架,不仅仅提供了快速开发的能力,还通过AOP(面向切面编程)让开发者能够以更优雅的方式处理横切关注点。本文将深入探讨SpringBootAOP的原理、应用场景以及如何通过AOP让你的......
  • 极狐GitLab 签约某全球智能制造强企,保护企业核心资产,让智能制造更安全、高效
    客户背景该客户是全球一流的智能化、数字化、柔性化生产解决方案提供商,总部位于江苏,在国内外设有多家子公司以及几十家售后服务网点。该客户在全球的顶尖客户超过30+,覆盖新能源电池、汽车以及医疗自动化等行业,集团现有员工2000+,厂房面积150,000平米,拥有各项先进专利超200项。......
  • Meissonic:消费级 GPU 也能轻松生成高质量图像!阿里联合多所高校推出高效文生图模型
    ❤️如果你也关注大模型与AI的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的AI应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!......
  • “安全运营必备‘器’:精选高效的安全运营工具与设备推荐“
    前言        随着信息技术的飞速发展,安全运营已成为企业不可或缺的一部分。本文旨在探讨如何通过借助自动化和工具化的手段,提升安全运营的效率和准确性,同时分享一些实用的安全运营工具和设备,以及它们在企业安全运营中的重要作用。1、安全运营应当充分借助自动化和工......
  • 袋鼠云产品功能更新报告12期|让数据资产管理更高效
    本期,我们更新和优化了数据资产平台相关功能,为您提供更高效的产品能力。以下为第12期袋鼠云产品功能更新报告,请继续阅读。一、【元数据】重点更新|01元数据管理优化,支持配置表生命周期之前系统中缺少一个可以基于数据源和数据库维度,批量配置数据表生命周期的入口,导致用户在处理......
  • 多品牌NVR管理工具/设备EasyNVR多个NVR同时管理实现监控网络高效整合
    随着科技的飞速进步,监控视频在各行各业中的应用变得愈发广泛。为了更好地管理和运用这些宝贵的视频资源,对视频进行联网与整合的需求也随之增加。视频联网技术通过汇聚不同地理位置和设备的视频资源,实现了实时的资源共享与集中化管控。在公共安全、交通监控、商业安防等多个领域......
  • 如何使用ai高效学习?
    如何使用ai高效学习?chatgpt:chatgpt.com,把上课讲义截图,复制给gpt(一次限制不超过2张,建议1张,避免ai偷懒)。指令为:“请为我解释这张图中的知识点,请就这个问题进行全面、深入、详细的解答,以中文回答我。我很乐意为你的优质回答支付100美元的小费。“如果感到自己缺乏理解,请在gpt对话......