首页 > 其他分享 >SoftMax 的困境:在稀疏性和多模态之间左右为难

SoftMax 的困境:在稀疏性和多模态之间左右为难

时间:2024-06-09 12:32:59浏览次数:20  
标签:模态 MultiMax 稀疏 左右为难 SoftMax 注意力 温度

SoftMax 是现代机器学习算法中无处不在的组成部分。它将输入向量映射到概率单纯形,并通过将概率质量集中在较大的条目上,来重新加权输入。然而,作为 Argmax 函数的平滑近似,SoftMax 将大量的概率质量分配给其他剩余的条目,导致可解释性差和噪声。虽然稀疏性可以通过一系列 SoftMax 变体来实现,但它们通常需要替代的损失函数,并且不保留多模态。

本文将探讨 SoftMax 在稀疏性和多模态之间面临的困境,并介绍一种名为 MultiMax 的新方法,它可以有效地解决这一问题。

SoftMax 的局限性:温度的尴尬

SoftMax 的一个重要参数是温度(temperature)。温度控制着输出分布的熵,较高的温度会导致过度平滑,降低优化效率,而较低的温度会导致多模态坍塌,使训练不稳定。

例如,在注意力机制中,较低的温度会导致除了峰值之外的所有相关位置都被忽略,而较高的温度会导致注意力在无关键上“浪费”大量的注意力。因此,在注意力层中,温度通常默认设置为 1。然而,这种折衷方案会导致最近在视觉和语言 Transformer 中观察到的过度平滑问题。

寻找突破:稀疏 SoftMax 的不足

为了克服 SoftMax 的问题,研究人员提出了稀疏 SoftMax 替代方案,这些方案允许完全忽略低于阈值的较小条目。这些稀疏 SoftMax 变体已经在不同的背景下得到研究,例如生成模型、多类分类器的输出激活和/或注意力机制。

然而,这些方法通常存在梯度信号差的问题,这会导致训练过程中的不稳定性。此外,非稀疏维度的数量通常被视为经验选择的超参数。

MultiMax:兼顾稀疏性和多模态

与稀疏性相比,多模态在之前的研究中讨论得较少。由于注意力在大多数情况下不应该是排他的,因此传统的 SoftMax 作为 Argmax 的近似值,并不容易与多模态相容。稀疏 SoftMax 替代方案甚至更倾向于不保留分布的多模态。

为了解决 SoftMax 在稀疏性和多模态之间难以兼顾的问题,本文提出了 MultiMax。MultiMax 允许学习何时强调稀疏性,何时强调多模态,从而在两者之间提供灵活的权衡。同时,它保持分段可微,以便允许稳定的基于梯度的优化。

具体来说,MultiMax 通过一个先前的参数化函数扩展了传统的 SoftMax,该函数允许分别为特定输入值范围学习不同的温度值。例如,在自注意力机制中,这有助于学习特别低的温度,这些温度会为低输入值范围诱导稀疏性,即无关的标记可以被忽略,同时为更高的输入值范围学习较高的温度,即多个相关标记可以以多模态的方式共享注意力。

MultiMax 的优势:理论分析和实验结果

通过理论分析和实验评估,本文验证了 MultiMax 在以下方面的优势:

  • 提高了帕累托效率: MultiMax 在稀疏性和多模态之间取得了更好的帕累托效率,即在保持较高稀疏性的同时,也提高了多模态性。
  • 有效地防止过度平滑

标签:模态,MultiMax,稀疏,左右为难,SoftMax,注意力,温度
From: https://blog.csdn.net/weixin_36829761/article/details/139559859

相关文章

  • GPT-4o多模态处理能力解析:AI技术的新高度
     GPT-4o模型在2024年5月14日被宣布推出,具有多项引人注目的特点与功能。能够支持文本、音频和图像的任意组合输入,并生成相应的文本、音频和图像输出。它在视觉和音频理解方面尤其出色,可以实时对音频、视觉和文本进行推理。相比之前的模型,GPT-4o在速度上有了显著的提升,例如,它可......
  • 深度学习 - softmax交叉熵损失
    示例代码importtorchfromtorchimportnn#多分类交叉熵损失,使用nn.CrossEntropyLoss()实现。nn.CrossEntropyLoss()=softmax+损失计算deftest1():#设置真实值:可以是热编码后的结果也可以不进行热编码#y_true=torch.tensor([[0,1,0],[0,0,1]......
  • 【机器学习】GLM4-9B-Chat大模型/GLM-4V-9B多模态大模型概述、原理及推理实战
    ​​​​​​​目录一、引言二、模型简介2.1GLM4-9B 模型概述2.2GLM4-9B 模型架构三、模型推理3.1GLM4-9B-Chat语言模型3.1.1 model.generate 3.1.2 model.chat3.2GLM-4V-9B多模态模型3.2.1多模态模型概述3.2.2 多模态模型实践四、总结 一、引言......
  • AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.25-2024.05.31
    文章目录~1.EmpoweringVisualCreativity:AVision-LanguageAssistanttoImageEditingRecommendations2.Bootstrap3D:Improving3DContentCreationwithSyntheticData3.Video-MME:TheFirst-EverComprehensiveEvaluationBenchmarkofMulti-modalLLMsin......
  • AIGC中国开发者大会:AI Agent中国落地发展现状及多模态结合具身智能的发展展望
    引言2024年5月25日,第三届AIGC中国开发者大会在昆仑巢成功举办。本次大会围绕“AIAgent的国内应用现状及多模态结合具身智能的发展展望”这一主题,邀请了多位知名企业家、投资人以及技术专家,共同探讨大模型在中国各行各业的应用现状及未来发展趋势。AIAgent国内应用现状1......
  • 模态框:固定位置学习
    <!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metaname="viewport"content="width=device-width,initial-scale=1.0"><title>模态框:固定位置</title><......
  • tf.keras实现逻辑回归和softmax多分类
    逻辑回归实现转自:https://www.cnblogs.com/miraclepbc/p/14311509.html相关库引用importtensorflowastfimportnumpyasnpimportpandasaspdimportmatplotlib.pyplotasplt%matplotlibinline加载数据data=pd.read_csv("E:/datasets/dataset/credit-a.csv",h......
  • 【C++】【MFC】模态和非模态对话框
    1、模态对话框,开启后限制操作父窗口voidCMFCApplication1Dlg::OnBnClickedButton2(){//TODO:在此添加控件通知处理程序代码CDlgExeCexec;exec.DoModal();}调用DoModal即可完成。 2、非模态对话框,开启后对任意窗口都无限制voidCMFCApplication1Dlg......
  • 多模态模型的演进和四种主流架构类型
    机器学习中的多模态领域近年来取得了显著进展。能够处理图像、音频或视频以及文本(语言)的模型显著增多,特别是在Transformer模型的帮助下。我们对现在的多模态按照架构模式分为四类:A、B、C、D。A和B类型在模型内部层中深度融合多模态输入,可以实现细粒度控制模态信息流动,但需要大......
  • 【机器学习】Chameleon多模态模型探究
    Chameleon:引领多模态模型的新时代一、多模态模型的时代背景二、Chameleon模型的介绍三、Chameleon模型的技术特点四、Chameleon模型的性能评估五、Chameleon模型的代码实例随着人工智能技术的深入发展,我们逐渐认识到单一模态的模型在处理复杂问题时存在一定的局限......