首页 > 其他分享 >【今日收获】Representation Collapse

【今日收获】Representation Collapse

时间:2023-12-05 11:35:25浏览次数:34  
标签:Collapse 训练 模型 收获 Representation fine tuning

在深度学习中,对预训练模型进行 fine-tuning 可能会引发一种称为 "Representation Collapse" 的现象。Representation Collapse 指的是模型在 fine-tuning 过程中失去了原始预训练模型所具有的多样性和丰富性的特征表示,导致最终模型的表示能力受到限制,无法充分适应新的任务或数据。

这个现象主要发生在以下情况:

  1. 任务差异较大: 如果预训练模型是在一个与 fine-tuning 任务相差较大的领域中训练的,那么 fine-tuning 过程中可能会导致模型丢失原有知识而无法适应新任务。

  2. 数据不足: 如果 fine-tuning 阶段的数据量较小,或者数据分布与预训练数据差异较大,模型可能会过度依赖于少量的新数据,而无法充分挖掘原有模型的丰富信息。

  3. 过于激进的学习率: 在 fine-tuning 过程中,使用过大的学习率可能导致模型权重更新过于激烈,从而破坏原有的表示结构,使其失去对多样性特征的捕捉能力。

为了避免 Representation Collapse,可以考虑以下方法:

  1. 渐进的 fine-tuning: 逐渐调整学习率,确保模型在 fine-tuning 过程中平稳地适应新任务,防止权重更新过于激进。

  2. 合理选择预训练模型: 选择与目标任务相近的预训练模型,以减小任务之间的差异。

  3. 数据增强: 利用数据增强技术增加 fine-tuning 阶段的数据多样性,有助于模型更好地适应新任务。

  4. 特征蒸馏: 使用特征蒸馏等技术,引导模型保留预训练时学到的有用特征。

标签:Collapse,训练,模型,收获,Representation,fine,tuning
From: https://www.cnblogs.com/Zer0-Chambers/p/17876839.html

相关文章

  • 2023ICCV_Feature Modulation Transformer: Cross-Refinement of Global Representati
    一.Motivation1.transformer的工作主要集中在设计transformer块以获得全局信息,而忽略了合并高频先验的潜力2. 关于频率对性能的影响的详细分析有限(Additionally,there islimiteddetailedanalysisoftheimpactoffrequencyon performance.)注: (1) 图说明:随着高......
  • 使用EPLAN做项目的收获点
    收获点如下:1.消息检查功能。最具有代表性的EPLAN软件的辅助检查功能。通过自带检查可以发现设计的错误和警告。 2.导线表导出功能。使用导入模版、宏设置,导出对应线号表。此类接线通过一个导线源端目标端两个标号,同一编号。实现不需要原理图就能接线。 3.去除消息检查错......
  • 学习linux“存储管理”收获与心得
    学习Linux的存储管理是一个非常重要的课题,它涉及到如何有效地管理和利用计算机系统中的存储资源。在学习过程中,我收获了以下几点心得体会:   首先,了解文件系统的概念和原理是非常重要的。文件系统是操作系统用来组织和管理存储设备上的文件和目录的一种机制。在Linux中,常用......
  • 学习linux文件管理的收获与心得
    学习Linux文件管理我有以下收获和心得:1.熟悉了Linux文件系统的组成和目录结构,对Linux操作系统有了更深入的理解。2.掌握了文件和目录操作的基本命令,如ls、cd、mkdir、rm等,能够快速查看和操作文件。3.学习了文件和目录权限相关的命令(chmod,chown,chgrp)以及权限表示方法......
  • 学习linux用户管理的收获
    学习Linux用户管理我有以下收获:1.掌握了用户与组的基本概念,以及用户与组的关系;2.熟悉了用户与组相关的文件和目录,如/etc/passwd、/etc/shadow、/etc/group等;3.熟悉了添加和删除用户、修改用户信息、修改密码等操作,能够灵活地对用户进行管理;4.学习了不同用户之间的权限控......
  • 解决折叠面板Collapse上点击复选框会触发折叠面板问题
    问题描述:折叠面板前面加复选框,但是点击复选框会触发折叠面板,将面板打开或折叠,如下 解决方案:给复选框添加组织事件冒泡 e.stopPropagation() 效果如下: ......
  • 通过时序和上下文对比学习时间序列表征《Time-Series Representation Learning via Te
    现在是2023年11月14日的22:15,肝不动了,要不先回寝室吧,明天把这篇看了,然后把文档写了。OK,明天的ToDoList.现在是2023年11月15日的10:35,继续。论文:Time-SeriesRepresentationLearningviaTemporalandContextualContrasting(IJCAI官网版本PDF)或者是:Time-SeriesRepresenta......
  • 场景交易额超40亿,海尔智家三翼鸟开始收获
    文|螳螂观察作者|余一随着双十一的到来,国内的消费情绪再次被点燃。在这类大促之下,品牌们就像一个个天体,不断引动着市场潮汐,期待自己能触发更大的“海潮效应”。所谓“海潮效应”是指,海水因天体的引力而涌起,引力大则出现大潮,引力小则出现小潮,引力过弱则无潮。放到整个智能家居行......
  • 论文阅读:Nerflets: Local Radiance Fields for Efficient Structure-Aware 3D Scene R
    Nerflets:LocalRadianceFieldsforEfficientStructure-Aware 3DSceneRepresentationfrom2DSupervisionNerflets:用于高效结构感知的三维场景的二维监督的局部辐射场图1。我们提出用一组局部神经辐射场来表示场景,称为nerflets,仅在2D监督下进行训练。我们的表示法不仅适......
  • CF786C Till I Collapse
    题外话根分纸张第一次自己做出根分虽然很水,纪念一下。\(\text{Links}\)CodeforcesLuogu题意给定一个长度为\(n\)\((1\len\le10^5)\)的序列\(a\)\((1\lea_i\len)\),对于\(k=1,2,3,\dots,n\),分别求出最小的\(m\),使得存在一种将原序列划分成\(m\)段的方案,满足每......