SoftMax 的困境：在稀疏性和多模态之间左右为难

时间：2024-06-09 12:32:59浏览次数：20

SoftMax 是现代机器学习算法中无处不在的组成部分。它将输入向量映射到概率单纯形，并通过将概率质量集中在较大的条目上，来重新加权输入。然而，作为 Argmax 函数的平滑近似，SoftMax 将大量的概率质量分配给其他剩余的条目，导致可解释性差和噪声。虽然稀疏性可以通过一系列 SoftMax 变体来实现，但它们通常需要替代的损失函数，并且不保留多模态。

本文将探讨 SoftMax 在稀疏性和多模态之间面临的困境，并介绍一种名为 MultiMax 的新方法，它可以有效地解决这一问题。

SoftMax 的局限性：温度的尴尬

SoftMax 的一个重要参数是温度（temperature）。温度控制着输出分布的熵，较高的温度会导致过度平滑，降低优化效率，而较低的温度会导致多模态坍塌，使训练不稳定。

例如，在注意力机制中，较低的温度会导致除了峰值之外的所有相关位置都被忽略，而较高的温度会导致注意力在无关键上“浪费”大量的注意力。因此，在注意力层中，温度通常默认设置为 1。然而，这种折衷方案会导致最近在视觉和语言 Transformer 中观察到的过度平滑问题。

寻找突破：稀疏 SoftMax 的不足

为了克服 SoftMax 的问题，研究人员提出了稀疏 SoftMax 替代方案，这些方案允许完全忽略低于阈值的较小条目。这些稀疏 SoftMax 变体已经在不同的背景下得到研究，例如生成模型、多类分类器的输出激活和/或注意力机制。

然而，这些方法通常存在梯度信号差的问题，这会导致训练过程中的不稳定性。此外，非稀疏维度的数量通常被视为经验选择的超参数。

MultiMax：兼顾稀疏性和多模态

与稀疏性相比，多模态在之前的研究中讨论得较少。由于注意力在大多数情况下不应该是排他的，因此传统的 SoftMax 作为 Argmax 的近似值，并不容易与多模态相容。稀疏 SoftMax 替代方案甚至更倾向于不保留分布的多模态。

为了解决 SoftMax 在稀疏性和多模态之间难以兼顾的问题，本文提出了 MultiMax。MultiMax 允许学习何时强调稀疏性，何时强调多模态，从而在两者之间提供灵活的权衡。同时，它保持分段可微，以便允许稳定的基于梯度的优化。

具体来说，MultiMax 通过一个先前的参数化函数扩展了传统的 SoftMax，该函数允许分别为特定输入值范围学习不同的温度值。例如，在自注意力机制中，这有助于学习特别低的温度，这些温度会为低输入值范围诱导稀疏性，即无关的标记可以被忽略，同时为更高的输入值范围学习较高的温度，即多个相关标记可以以多模态的方式共享注意力。

MultiMax 的优势：理论分析和实验结果

通过理论分析和实验评估，本文验证了 MultiMax 在以下方面的优势：

提高了帕累托效率： MultiMax 在稀疏性和多模态之间取得了更好的帕累托效率，即在保持较高稀疏性的同时，也提高了多模态性。
有效地防止过度平滑

标签：模态,MultiMax,稀疏,左右为难,SoftMax,注意力,温度
From： https://blog.csdn.net/weixin_36829761/article/details/139559859

GPT-4o多模态处理能力解析：AI技术的新高度
GPT-4o模型在2024年5月14日被宣布推出，具有多项引人注目的特点与功能。能够支持文本、音频和图像的任意组合输入，并生成相应的文本、音频和图像输出。它在视觉和音频理解方面尤其出色，可以实时对音频、视觉和文本进行推理。相比之前的模型，GPT-4o在速度上有了显著的提升，例如，它可......
深度学习 - softmax交叉熵损失
示例代码importtorchfromtorchimportnn#多分类交叉熵损失，使用nn.CrossEntropyLoss()实现。nn.CrossEntropyLoss()=softmax+损失计算deftest1():#设置真实值:可以是热编码后的结果也可以不进行热编码#y_true=torch.tensor([[0,1,0],[0,0,1]......
【机器学习】GLM4-9B-Chat大模型/GLM-4V-9B多模态大模型概述、原理及推理实战
目录一、引言二、模型简介2.1GLM4-9B 模型概述2.2GLM4-9B 模型架构三、模型推理3.1GLM4-9B-Chat语言模型3.1.1 model.generate 3.1.2 model.chat3.2GLM-4V-9B多模态模型3.2.1多模态模型概述3.2.2 多模态模型实践四、总结一、引言......
AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.05.25-2024.05.31
文章目录～1.EmpoweringVisualCreativity:AVision-LanguageAssistanttoImageEditingRecommendations2.Bootstrap3D:Improving3DContentCreationwithSyntheticData3.Video-MME:TheFirst-EverComprehensiveEvaluationBenchmarkofMulti-modalLLMsin......
AIGC中国开发者大会：AI Agent中国落地发展现状及多模态结合具身智能的发展展望
引言2024年5月25日，第三届AIGC中国开发者大会在昆仑巢成功举办。本次大会围绕“AIAgent的国内应用现状及多模态结合具身智能的发展展望”这一主题，邀请了多位知名企业家、投资人以及技术专家，共同探讨大模型在中国各行各业的应用现状及未来发展趋势。AIAgent国内应用现状1......
模态框：固定位置学习
<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metaname="viewport"content="width=device-width,initial-scale=1.0"><title>模态框：固定位置</title><......
tf.keras实现逻辑回归和softmax多分类
逻辑回归实现转自：https://www.cnblogs.com/miraclepbc/p/14311509.html相关库引用importtensorflowastfimportnumpyasnpimportpandasaspdimportmatplotlib.pyplotasplt%matplotlibinline加载数据data=pd.read_csv("E:/datasets/dataset/credit-a.csv",h......
【C++】【MFC】模态和非模态对话框
1、模态对话框，开启后限制操作父窗口voidCMFCApplication1Dlg::OnBnClickedButton2(){//TODO:在此添加控件通知处理程序代码CDlgExeCexec;exec.DoModal();}调用DoModal即可完成。 2、非模态对话框，开启后对任意窗口都无限制voidCMFCApplication1Dlg......
多模态模型的演进和四种主流架构类型
机器学习中的多模态领域近年来取得了显著进展。能够处理图像、音频或视频以及文本（语言）的模型显著增多，特别是在Transformer模型的帮助下。我们对现在的多模态按照架构模式分为四类：A、B、C、D。A和B类型在模型内部层中深度融合多模态输入，可以实现细粒度控制模态信息流动，但需要大......
【机器学习】Chameleon多模态模型探究
Chameleon：引领多模态模型的新时代一、多模态模型的时代背景二、Chameleon模型的介绍三、Chameleon模型的技术特点四、Chameleon模型的性能评估五、Chameleon模型的代码实例随着人工智能技术的深入发展，我们逐渐认识到单一模态的模型在处理复杂问题时存在一定的局限......

SoftMax 的困境：在稀疏性和多模态之间左右为难

SoftMax 的局限性：温度的尴尬

寻找突破：稀疏 SoftMax 的不足

MultiMax：兼顾稀疏性和多模态

MultiMax 的优势：理论分析和实验结果

相关文章

赞助商

阅读排行