ACL会议2024-MPLMM精读

时间：2024-09-20 12:48:20浏览次数：10

标签：模态 Multimodal 精读 Missing 提示 MPLMM 生成 2024 缺失

论文地址：
Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition - ACL Anthology

代码地址：GitHub - zrguo/MPLMM: [ACL 2024 Main] Official PyTorch implementation of the paper "Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition"

动机：

显示场景应用时存在的模态缺失问题

解决方法：

引入了三种类型的提示:生成提示、缺失信号提示和缺失类型提示。

（generative prompts, missing-signal prompts, and missingtype prompts）

论文相关技术：

（1）多模态情感分析（MSA，Multimodal Sentiment Analysis）和情感识别（MER，Multimodal Emotion Recognition）

（2）模态缺失的多模态学习（Multimodal Learning with Missing Modalities）

（3）提示学习（Promt Learning）

这些提示可以生成缺失的模态特征，并促进模态内部和模态间信息的学习。通过快速学习，降低了可训练参数的数量。提出的方法在所有评估指标上都明显优于其他方法。广泛的实验和消融研究证明了的方法的有效性和鲁棒性，展示了其有效处理缺失模态的能力。

算法流程

首先，先将缺失的模态数据传入Missing Modality Generation Module中进行生成缺失模态，随后并加入生成提示符，即会在数据后面链接一个标识符。其中PMS表示模态缺失，PNMS表示模态未缺失，公式如下：

$\begin{aligned}\hat{x}^a&:=\hat{x}^a+P_{MS}^a\\x^v&:=x^v+P_{NMS}^v\\x^t&:=x^t+P_{NMS}^t\end{aligned}$

接下来，将讲解Missing Modality Generation Module的缺失模态生成过程：

（1）仅缺失单一模态的情况：以缺失音频为例

将Video和Text分别输入到各自的模态转换器中，即

$f_{v\to a}(x^{v}),f_{t\to a}(x^{t})$

然后再将各自生成的音频特征以及Generative Prompts一同加入到综合生成器中，即

$\hat{x}^a=f_{vt\to\hat{a}}([P_{Ga},f_{v\to a}(x^v),f_{t\to a}(x^t)])$

值得注意的是，这些转换器和综合生成器都由Conv 1D层和激活层组成，可谓是非常轻量级。

（2）缺失两个模态的情况：以缺失视频、音频为例

其实也就是先进行和前面一致的模态转换，以及叠加生成提示词：

$\hat{x}^{a}=f_{t\to\hat{a}}([P_{Ga},f_{t\to a}(x^{t})])\\\hat{x}^{v}=f_{t\to\hat{v}}([P_{Gv},f_{t\to v}(x^{t})])$

接下来，开始讲讲，创新点的三种类型的提示:生成提示、缺失信号提示和缺失类型提示

其中，第一种提示词也就是在生成模态数据以及原始模态后面加是否为生成模态的提示符：

$\hat{x}^{a}=f_{t\to\hat{a}}([P_{Ga},f_{t\to a}(x^{t})])\\\hat{x}^{v}=f_{t\to\hat{v}}([P_{Gv},f_{t\to v}(x^{t})])$

然后则是在模态生成后进入一个Conv1D，然后在进入Crossmodal-Transformer模块时，添加缺失信号提示：

$\begin{aligned}\hat{x}^a&:=\hat{x}^a+P_{MS}^a\\x^v&:=x^v+P_{NMS}^v\\x^t&:=x^t+P_{NMS}^t\end{aligned}$

然后则是在Crossmodal-Transformer模块的输出后，进入Transformer模块到后再的添加缺失类型提示

$\mathbf{M_P}=\mathbf{M_a}\cdot P_{MS}^a+\mathbf{M_v}\cdot P_{NMS}^v+\mathbf{M_t}\cdot P_{MS}^t$

$P'_{MT}=P_{MT}\cdot\mathrm{M}_{\mathbf{P}}$

实验结果：

指标好就完了。

骨干网络替换后都有效，证明适配性很高，这个框架比较普适。

消融实验，证明模块组合的有效性，其实应该再加一个全部的组合

改进的方向：

显然，Conv1D作为模态之间的转换器实在是有点简单，在处理原始模态的情况下肯定是会导致性能的下降；模态之间相关性如果比较差的情况下，同样会导致性能下降的问题。

标签：模态,Multimodal,精读,Missing,提示,MPLMM,生成,2024,缺失
From： https://blog.csdn.net/weixin_40044549/article/details/142374910

周五学习 -2024/9/20
今天9月20日,出发去徐州!HashMapHashMap的特点HashMap底层是哈希表结构的依赖hashCode方法和equals方法保证键的唯一如果键存储的是自定义对象,需要重写hashCode和equals方法DQL-分页查询SELECT字段列表FROM表名LIMIT起始索引,查询记录数;注意:起始索引从0开始,......
界面控件Telerik UI for WinForms 2024 Q3概览 - 支持合并单元格等
TelerikUIforWinForms拥有适用WindowsForms的110多个令人惊叹的UI控件。所有的UIforWinForms控件都具有完整的主题支持，可以轻松地帮助开发人员在桌面和平板电脑应用程序提供一致美观的下一代用户体验。本文将介绍界面组件TelerikUIforWinForms在今年第一个重大版本2024......
网络安全（黑客技术）2024年三个月自学手册
......
【学术会议：中国杭州，机器学习和计算机应用面临的新的挑战问题和研究方向】第五届机器学
您的学术研究值得被更多人看到！在这里，我为您提供精准的会议推荐，包括水利土木工程、计算机科学、地球科学、机械自动化、材料与制造技术、经管金融、人文社科等主流学科相关领域的国际会议。快速的稿件录用和高效的检索服务将确保您的研究成果迅速传播。关注我，寻找与您研究......
2024年9月北京、南京、深圳CDAM数据资产管理师认证，线上学习
人工智能与信息浪潮中，数据资源作为企业发展的核心要素，其可重组利用的无形价值显著。数据安全、利用、价值评估等工作，均关乎企业未来决策与发展。数据资产，是企业持续发展的关键因素。在此背景下，CDAM数据资产管理师应运而生，他们在组织中担当数据资产的规划师、治理者、质控者、安全......
八款主流加密软件推荐｜2024年好用的企业文件加密软件盘点
随着企业数据量的日益增长以及信息安全的重要性不断提高，文件加密软件成为各大企业保护敏感数据的关键工具。2024年，市场上涌现出众多功能强大且易于使用的加密软件，满足了企业不同的安全需求。本文将为您盘点八款主流的企业文件加密软件，帮助企业有效防范数据泄露，提升信息安全管......
Metasploit Pro 4.22.4-2024091601 发布下载，新增功能概览
MetasploitPro4.22.4-2024091601发布下载，新增功能概览MetasploitPro4.22.4-2024091601(Linux,Windows)-专业渗透测试框架Rapid7Penetrationtesting,releaseSep16,2024请访问原文链接：https://sysin.org/blog/metasploit-pro-4/，查看最新版。原创作品，转载请保留出......
【2024-09-19】人往高走
20:00当华美的叶片落尽，生命的脉络才历历可见。 ——聂鲁达今天下午帮二宝挂了眼科号，原因是她近期频繁地眨眼睛。不只是近期，早......
2024-08-29-SEA-RAFT-中英对照
SEA-RAFT:Simple,Efficient,AccurateRAFTforOpticalFlowSEA-RAFT：简单、高效、准确的光流RAFT算法YihanWang,LahavLipson,andJiaDeng王一涵，LahavLipson，和JiaDengDepartmentofComputerScience,PrincetonUniversity{yw7685,llipson,jiadeng}@princeton.e......
网络安全C10-2024.9.15-Nmap、Xray、Nessus和AWVS使用扫描
1、安装并使用Nmap扫描一个地址（本机、VPS、虚拟机环境都可以），提供扫描结果截图nmap下载安装：https://nmap.org/download#windowsnmap概述：Nmap（“NetworkMapper<网络映射器>”）是一款开放源代码的网络探测和安全审核的工具。Nmap输出的是扫描目标的列表，以及每个目标的补充信息，......