首页 > 其他分享 >基于变换融合和情感层次表征学习的多标签多模态情感识别

基于变换融合和情感层次表征学习的多标签多模态情感识别

时间:2024-12-04 21:28:58浏览次数:11  
标签:模态 令牌 标签 融合 情感 模块 序列

三区,魔改transformer系列只摘重点,不再全文翻译

妈的,这种文章创新点体现在哪啊?,,,,

并且这篇文章为什么没给自己的模型取个名字......我真不懂了

简单而有效的多模态融合模块 / 在融合的多模态特征上结合情感级嵌入(?)

method

我们提出的方法的体系结构。它由三个主要模块组成:

(1)包含三个文本、视觉和声学模态特征提取器的主干模块;

(2)一个基于transformer的融合模块,用于处理和融合多模态信息;

(3)一个情感级嵌入和分类头模块,用于将融合的多模态特征与情感级表示相匹配,并输出最终的情感预测。

该模型由三个模块组成:特征提取模块、多模态融合模块和情感层次嵌入模块。

特征提取

对于视觉(视频帧)和声学(Mel谱图块)模式,我们使用两个单独的CNN网络(从头开始训练)作为每个模式的主干。我们通过包含包含多个完全连接层的投影网络,以及每个模态的非线性激活函数来将多模态特征映射到相同的大小,从而实现多模态特征的融合。此外,我们使用变压器编码器从视频帧和音频频谱图中捕获隐藏特征序列的时间信息。

因此,我们从文本、视觉和声学模式中获得三个隐藏表示序列,分别表示为。其中,分别为转录词数、采样视频帧数、Mel谱图块数;D为特征维数的大小。

对于文本模态,T由从预训练的基于bert的模型中提取的nt个词嵌入组成,并投影到d大小。对于视觉和声学模态,I和A分别包含从视频帧和音频频谱图块中捕获的大小为d的ni和na个特征向量。

基于Transformer的多模态融合模块

与以前基于变压器的多模态融合方法不同,我们提出同步融合来自不同模态的特征,而不是划分可能的成对模态组合。我们首先总结了变压器[6]中的多头关注,然后描述了我们提出的扩展到视频数据的多模态融合。给定一个包含n个大小为d的向量的输入序列,变压器中的多头自关注块在h个子空间(h为头的个数,dk = d/h,通常dk = dv)中,将S并行投影到由查询组成的多个集合中。对于每一组预测查询、键和值,执行一个注意函数如下:

点积QKT是相似度度量的形式,注意力(Q,K, V)是注意力权重(softmax分数)加权的和。最终的联合表示是通过对所有具有可训练权重的注意头输出进行平均得到的:

其中,Wo∈R hdv×d表示可学习参数。

单个点积注意使模型能够扫描输入序列中的每个元素,并了解应该注意哪些元素。多头注意使这个过程可以从不同的表示子空间执行。换句话说,变压器提供了一种机制,可以选择性地从整个输入序列中积累有关输出的信息。此外,多头注意力随输入序列中向量的顺序而持久。因此,通过在输入序列上应用多头注意来融合多模态信息自然是合适的,这是多模态特征的顺序不可知组合。

通过特征提取模块后,我们分别从文本转录、图像帧、声学信号等多种模式中得到三个隐藏表示序列然后,我们将它们连接成一个统一的多模态特征序列,并在开始时添加分类令牌([CLS]令牌),并将其用作融合模块的输入序列。

我们采用香草变压器[6]编码器,并在Le多个块上堆叠来构建多模态融合模块。标准变压器编码器由多头自关注层(MSA)、规范化层(Norm)和位置前馈网络(FFN)组成。

第i块的融合多模态表示F i∈R ns×d (ns = nt + ni + na)计算如下:

Q1:这个添加分类令牌是什么?怎么实现?什么作用?

A1:将T、I、A 连接在一起,为了将这些多模态特征融合在一起,模型将它们连接成一个统一的序列,并在开始位置添加一个CLS令牌,这个CLS令牌将在transformer编码器中作为全局特征的代表,用于最终的分类或其他任务。

Q2:那这个cls是什么呢?一个实数吗?如何代表全局信息

A2:cls不是实数,而是一个d维的向量,cls通常作为一个可学习的参数进行初始化,并在训练过程中通过反向传播进行优化。

  • 在变压器的自注意力机制中,每个位置的令牌都可以与序列中的所有其他位置进行交互。
  • 由于 [CLS] 令牌位于序列的最前面,并且经过多层自注意力处理,它能够聚合来自整个序列的信息。
  • 通过多头自注意力层,[CLS] 令牌能够接收并整合不同模态特征中的关键信息,形成一个综合的全局表示。

情感级嵌入模块

以往基于变压器的工作通常使用分类令牌(“[CLS]”令牌)的输出来执行线性层分类,与之相反,我们利用融合模块的变压器编码器的整个输出序列来丰富多标签情感识别任务的特征,如图所示。我们不是学习一个独特的表征,然后用它来预测所有的情绪,而是采用学习多个嵌入的想法,其中每个嵌入都面向每个特定的情绪。我们利用变压器解码器中的交叉关注,为受[22],[27]和[28]启发的单个视频汇集多个情感级嵌入。

学习类级嵌入的说明(b)与使用CLS令牌的输出相比(a)分类。

 情感级嵌入模块将融合模块输出的特征序列F∈R ns×d作为输入,生成视频的情感级表示E∈R C×d (C等于情感类的个数,d为特征维度大小)。首先,随机初始化一组特定情绪的嵌入E0∈R C×d,用于投影查询向量q。在训练过程中学习。同时,从融合模块输出的精炼多模态特征序列用于投影K和V向量。然后使用一系列Nd变压器解码器学习视频情感级表示:

其中Norm、MHA和FFN分别为规范化层、多头注意层和前馈网络;I∈{1,…, Nd}。

标签:模态,令牌,标签,融合,情感,模块,序列
From: https://blog.csdn.net/weixin_45962681/article/details/144219418

相关文章

  • HTML前端页面--表单标签
    一、一些特殊标签:图片、音频、视频标签二、表单标签:表单:在网页中采集数据,使用标签定义表单项:不同类型的input元素登录页面、注册页面等都是表单注册对应的是,数据库的增加登录对应的是数据库的查询分类:form是表单标签,在页面中不显示;需要借助表单项标签来展示不同的......
  • python批量将文件编码格式转换为 UTF8带标签的格式,解决linux环境下中文编码乱码的问题
    指定一个文件夹,遍历文件夹内的文件和子文件夹内的文件,然后识别文件后缀为cpp的文件,通过chardet取检测文件的编码格式,如果不是UTF-8-SIG,则转换为UTF-8-SIGpython脚本格式如下importosimportsysimportcodecsimportchardetdefconvert(filename,out_enc="UTF-8-SIG"):......
  • form标签中的button未指明type时默认的类型是什么
    form中button未指明type时,默认type为submit遇到了一个奇怪的现象:一个按钮打开一个Bootstrap模态框,模态框有几个表单字段和两个按钮,两个按钮可以关闭模态框,点击其中一个按钮关闭模态框后页面居然刷新了。仔细检查后发现点击的按钮未指明type,浏览器把按钮type默认为submit了。写......
  • k8s~关于非常啰嗦的标签和选择器
    总感觉k8s中定义的deplyment和service非常的啰嗦,尤其是在选择器的定义上,但没办法,它的设计总有它的道理。svc(spec.selector.app)deployment(metadata.labels.app,spec.selector.matchLabels.app)pods(metadata.labels.app)nginx的部署下面是一个KubernetesYAML文......
  • 李飞飞:Agent AI 多模态交互的前沿探索
    这份论文垫子版我已经拿到了,需要的小伙伴可以扫取。01—引言1.1研究背景与动机人工智能的发展源远流长,1956年达特茅斯会议定义了人工智能为可从环境收集信息并有效交互的人工生命形式。受此启发,米斯基团队1970年构建的“复制演示”机器人系统揭示了人工智能研究面临的......
  • noscript标签有什么作用?
    noscript标签的作用是:当用户的浏览器不支持JavaScript或禁用JavaScript时,显示noscript标签内的内容。它提供了一种向不支持或禁用JavaScript的用户展示替代内容的方法,从而提升用户体验。以下是noscript标签的一些关键作用和用法:提供替代内容:noscript标签中最常......
  • 有哪些标签是不支持伪元素的?
    以下HTML标签不支持伪元素(::before和::after):空元素(Voidelements):这些元素在HTML规范中定义为不能包含任何内容的元素。由于伪元素的目的是在元素的内容之前或之后插入内容,因此空元素无法使用它们。常见的空元素包括:areabasebrcolembedhrimginputkeygen(......
  • ECharts柱状图-极坐标柱状图标签,附视频讲解与代码下载
    引言: 在数据可视化的世界里,ECharts凭借其丰富的图表类型和强大的配置能力,成为了众多开发者的首选。今天,我将带大家一起实现一个柱状图图表,通过该图表我们可以直观地展示和分析数据。此外,我还将提供详细的视频讲解和代码下载链接,帮助大家快速上手。一、图表效果预览  二......
  • 切换标签窗口后js定时器自动停止了,如何在激活标签后又继续呢?
    JavaScript定时器在标签页失去焦点(例如切换到其他标签页或最小化浏览器)时,会被浏览器降低优先级或暂停,以节省资源。这会导致定时器不准确,甚至看起来停止了。要解决这个问题,你需要使用requestAnimationFrame或手动调整时间差。1.使用requestAnimationFrame(推荐)requestAnim......
  • PbootCMS中istop标签不起作用,如何确保文章在列表中置顶?
     在PbootCMS中,istop标签用于标识文章是否置顶。如果发现设置istop后文章没有在列表中置顶,可能是由于前端模板调用或配置的问题。以下是详细的排查和解决方法:确认后台设置:确保在后台正确设置了文章的置顶状态。登录后台管理系统,进入“内容管理”->“文章管理”,选择文章并勾......