首页 > 其他分享 >【论文分析】COGMEN:基于上下文化GNN的多模态情感识别

【论文分析】COGMEN:基于上下文化GNN的多模态情感识别

时间:2023-05-04 21:45:36浏览次数:39  
标签:模态 语句 COGMEN mathcal rm GNN

1. 简述

COGMEN :基于上下文化图神经网络的多模式情感识别架构,该架构既解决了上下文对语句的影响,也解决了用于预测会话中每个说话者的每一语句情感的相互依赖性和内部依赖性

COGMEN有以下特点:

  • 基于上下文化图神经网络(GNN)的多模式情感识别架构,用于预测会话中每语句每说话者的情感
  • 模型在对话中同时利用了本地和全局信息
  • 使用图形变换器在多模态情感识别系统中建模说话人关系

2. 整体架构

img

输入的话语作为语境提取器模块的输入,该模块负责捕获全局语境。语境提取器为每个话语(utterance)提取的特征形成了一个基于说话人之间交互的图(Graph Formation)。该图作为Relational - GCN的输入,然后是graph transformer,graph transformer使用形成的图来捕捉话语之间的内部和内部关系。最后,作为情感分类器的两个线性层使用所有话语获得的特征来预测相应的情感.

graph TD A[输入] --> B[语境提取器 Context Extractor] B --形成-->C[图形形成 Graph Formation] C --> D[关系GCN Relational GCN] D --> E[图形变换器 Graph Transformer] E --> F[情感分类器 Emotion Classifier]

2.1 语境提取器 Context Extractor

  1. 对每个语句\(u_i\),使用其音频、文本、视频形成对应的输入特征\(x\);

\[x^{(atv)}_i= [u^{(a)}_i⊕u^{(t)}_i⊕u^{(v)}_i]∈\mathbb{R}^d \]

其中\(d=d_a+d_t+d_v\)

  1. 使用Transformer 编码器捕获上下文

    Transformer 编码器
    利用自注意力 (Self-attention)机制来捕获上下文信息
    Transformer编码器流程图如下:
    img

    1. 计算所以语句的特征\(x\)的Query、Key、Value

    \[Q^{(h)}=XW_{h,q},\\ K^{(h)}=XW_{h,k},\\ V^{(h)}=XW_{h,v}, \]

    1. 利用softmax函数计算单注意力头的权重

    \[α^{(h)}=σ_j(\frac{Q^{(h)}(K^{(h)})^T}{\sqrt{k}}) \]

    1. 计算多头注意力权重的加权和

    \[\begin{align} head^{(h)}&=α^{(h)}(V^{(h)})∈\mathbb{R}^{n×k}\notag\\ U^′&= [head^{(1)}⊕head^{(2)}⊕...head^{(H)}]W^o\notag \end{align} \]

    1. 添加残差连接,应用LayerNorm、前馈层和Add & Norm层

    \[\begin{align} \rm U &= \rm LayerNorm(X+U^′;γ_1,β_1);\notag\\ \rm Z^′&= \rm ReLU (UW_1)W_2;\notag \\ \rm Z&= \rm LayerNorm(U+Z^′;γ_2,β_2);\notag \end{align} \]

    其中,\(γ_1,β_1∈\mathbb{R}^d\),\(W_1∈\mathbb{R}^{d×m}\),\(W_2∈\mathbb{R}^{m×d}\),\(γ_2,β_2∈\mathbb{R}^d\).

    Transformer编码器提供了与对话中的每个语句相对应的特征\(([z_1,z_2,...,z_n]^T=Z∈\mathbb{R}^{n×d})\)。

2.2 图形形成 Graph Formation

将说话者内部和说话者之间的依赖关系形成一张图表,以便在图形变换器中建模。
每个语句都充当一个使用有向关系(过去和将来关系)连接的图的节点。

设置一个窗口大小用于限制每个话语前后的语句数量,并使用\(\mathcal{P}\)和\(\mathcal{F}\)作为超参数,在对话中的每个语句中形成过去\(\mathcal{P}\)语句和未来\(\mathcal{F}\)语句之间的关系。

例如,语句\(u^{(S1)}_i\)(说话者1发言)中的\(R_{intra}\)和\(R_{inter}\)被定义为:

\[R_{intra}(u^{(S1)}_i) =\{u^{(S_1)}_i←u^{(S_1)}_{i-\mathcal{P}}. . . u^{(S_1)}_i←u^{(S_1)}_{i-1},u^{(S_1)}_i←u^{(S_1)}_{i}, u^{(S_1)}_i→u^{(S_1)}_{i+1}. . . u^{(S_1)}_i→u^{(S_1)}_{i+\mathcal{F}}\}\\ R_{inter}(u^{(S1)}_i) =\{u^{(S_1)}_i←u^{(S_2)}_{i-\mathcal{P}}. . . u^{(S_1)}_i←u^{(S_2)}_{i-1},u^{(S_1)}_i←u^{(S_2)}_{i}, u^{(S_1)}_i→u^{(S_2)}_{i+1}. . . u^{(S_1)}_i→u^{(S_2)}_{i+\mathcal{F}}\} \]

其中\(←\)和\(→\)分别代表过去和未来的关系类型

2.3 关系GCN RGCN

RGCN是一种用于处理多边类型图的图卷积神经网络。它是在GCN的基础上,为了解决多边类型图中不同边关系对节点的影响而提出的

使用RGCN捕捉说话者之间和说话者内部对连接语句的依赖

\[x^′_i= Θ_{root}·\rm z_i+\sum _{r∈R} \sum_{j∈\mathcal{N}_r(i)}\frac{1}{|\mathcal{N}_r(i)|}Θ_r·\rm z_j \]

其中\(\mathcal{N}_r(i)\)表示关系\(r∈ \mathbb{R}\)下节点\(i\)的相邻集,\(Θ_{root}\)和\(Θ_r\)表示RGCN的可学习参数,\(|\mathcal{N}_r{(i)}|\)是归一化常数,\(\rm z_j\)是来自Transformer的语句水平特征。

2.4 图形变换器 Graph Transformer

GraphTransformer是一种图上的Transformer,它在transformer的注意力分数中,添加了边信息和空间信息。这种方法更好地利用图数据集以edge attribute的形式提供的丰富特征信息

使用Graph Transformer赋予从RGCN获取的节点特征 \(H=x^′_1,x^′_2,...,x^′_n\),

\[h^′_i=W_1x^′_i+\sum _{j∈\mathcal{N}(i)}α_{i,j}W_2x^′_j \]

其中,注意系数\(α_{i,j}\)由多头点积注意力计算获得:

\[α_{i,j}=\rm softmax(\frac{(W_3x^′_i)^⊤(W_4x^′_j)}{\sqrt{d}}) \]

2.5 情绪分类 Emotion Classifier

GraphTransformer \((h^′_i)\)提取的特征之上的线性层,用于预测与语句对应的情绪。

\[\begin{align} h_i &=\rm ReLU(W_1h^′_i+b_1)\notag\\ \mathcal{p}_i &=\rm softmax(W_2h_i+b_2)\notag\\ \hat{y}_i &=\rm arg max(\mathcal{p}_i)\notag \end{align} \]

其中\(\hat{y}_i\)是为语句\(u_i\)预测的情感标签

3. 实验结果分析

3.1 IEMOCAP和MOSEI 数据集上的结果

IEMOCAP

  • COGMEN在使用准确性和F1-score测量时表现得比之前的所有基线都要好

  • 快乐、悲伤、中性和兴奋情绪的分类F1的改善

    MOSEI

  • COGMEN在大多数情况下优于基线模型

  • 对于二元情绪分类,COGMEN优于之前A+T的最高准确率为85%的基线;对于七元情绪,也显示了相当的性能。

  • 所有的多模态方法在添加视觉模态时往往表现不佳,可能是因为视觉模态中存在噪声,以及与其他模态缺乏对齐。相比之下,COGMEN可以捕获各种模式之间的丰富关系,并在添加可视模式的同时显示性能提升

3.2 模型分析

本地和全局信息的影响**

  1. 用IEMOCAP (4-way)设置创建了一个子数据集,控制对话中的语句数量:

    表面了上下文信息的重要性,当语句数量增加时,模型的性能也会提高
  2. 去掉GNN模块,直接将上下文提取的特征传递给情感分类器来测试局部信息假设

    当GNN组件从架构中移除时,各种模式的性能下降,更明确了全局信息的重要性

GNN层的影响

可视化GNN组件之前和之后的特征,清楚地显示了添加GNN层后情绪簇的更好形成,

说明捕捉语句中的局部依赖关系对更好地表现情绪识别的重要性

关系类型的影响

在graph formation这一步保持关系不变,将会导致性能下降。说明显式关系的形成有助于捕获对话中出现的局部依赖关系。

模态数量量的影响

COGMEN作为一种相当通用的体系结构,相对于SOTA单模态体系结构,它仍然提供了更好的(对于IEMOCAP (4-way))或类似的性能。通过其他模式添加更多的信息有助于提高性能

语句的影响

通过一次掩盖一个语句并计算F1-score来推断训练后的模型对对话的影响,验证语句的影响及其在对话预测中的重要性

在前4种语句中,情绪状态为中性时,掩蔽语句的效果明显较小。相比之下,用情绪变化掩盖语句(9,10,11)完全降低了对话的f1得分,这表明该架构捕捉到了语句中情绪的影响

3.3 误差分析

  • 模型在区分相似的情绪方面存在不足
  • 模型有倾向错误地将其他情绪标签归类为中性
  • 例子中情绪发生变化的情况下与不变的情况相比性能较差

4 结论和不足

结论

  • 提出了一种使用GNN进行多模态情感识别的新方法
  • 并提出COGMEN:基于上下文化GNN的多模态情感识别
  • COGMEN在多模态情感识别方面优于现有的最先进的方法(即IEMOCAP(4-way)的f1分数提高了7.7%)
  • 通过对COGMEN的综合分析和烧蚀研究,展示了不同模块的重要性

不足

  • 难以区分相似情绪
  • 情绪发生变化的情况下与不变的情况相比性能较差
  • 在离线工作(已经获取了全部对话,之后的对话对预测仍有影响)比在线工作(对话进行预测时,只能看到之前的对话)中表现更好,在线实时工作时性能改进值得探索

标签:模态,语句,COGMEN,mathcal,rm,GNN
From: https://www.cnblogs.com/agitm/p/17372626.html

相关文章

  • 【论文翻译】COGMEN:基于上下文化GNN的多模态情感识别
    摘要情感是人类互动的固有组成部分,因此,开发能够理解和识别人类情感的人工智能系统势在必行。在涉及不同人的谈话中,一个人的情绪受到另一个说话人的语句和自己对语句的情绪状态的影响。在本文中,我们提出了基于上下文化图神经网络的多模态情感识别(COGMEN)系统,该系统利用了局部信息......
  • DeepMind:用 GNN 学习通用推理算法
    文|智商掉了一地小孩子才做选择,我的模型全!都!要!近年来,基于深度神经网络的机器学习系统取得了巨大进步,尤其是在以感知为主的任务上。这一领域表现突出的模型通常要在分布中进行泛化,意味着它们的训练和验证集代表了测试输入的预期分布。相比之下,要真正掌握由推理主导的任务,即使是在......
  • Angular 中修改bootstrap的模态框(modal)大小
    Angular中修改bootstrap的模态框(modal)大小自己瞎搞改width的后果。。。看官网文档:https://ng-bootstrap.github.io/#/components/modal/exampleshttps://github.com/ng-bootstrap/ng-bootstrap/blob/master/src/modal/modal.ts最终解决:showWarnningModal(){this.modalServ......
  • 微软发布多模态版ChatGPT!取名“宇宙一代”
    文|CoCo酱LudwigWittgenstein曾说过:“我语言的局限,即是我世界的局限”。大型语言模型(LLM)已成功地作为各种自然语言任务的通用接口,只要我们能够将输入和输出转换为文本,就可以将基于LLM的接口适应任务。尽管在自然语言处理中取得了成功的应用,但仍然难以将LLM用于处理多模态数据,例如图......
  • ionic5中在一个模态窗口中打开另一个,关闭后者之后出现的问题
    几年前开发ionic时遇到的问题,当时在stackoverflow上找到的解决方案,记录下:In @ionic/angular@5.0.0,whenamodallayerisopenedbymodalController,andanothermodallayerisopenedinit,andthenthelatterisclosed,therewillbeaproblem:atranslucentmask......
  • CVPR'23|向CLIP学习预训练跨模态!简单高效的零样本参考图像分割方法
    前言 本文提出了一种zero-shot的Referringimagesegmentation方法,该方法利用了来自CLIP的pre-train的跨模态知识。所提方法的性能明显优于所有基线方法和监督较弱的方法。本文转载自极市平台作者|CV开发者都爱看的仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南......
  • TF-GNN踩坑记录(四)
    目录引言题外话(MapFeatures使用)节点特征变换边特征变换传入额外参数问题问题demo解决方案引言由于图数据结构问题,直接使用Tensorflow的一些层是无法直接处理图数据的,需要借用TF-GNN框架下的MapFeatures对图数据中的节点特征或是边特征进行变换。题外话(MapFeatures使用)节点......
  • 一文详解多模态认知智能
    摘要:多模态认知智能是AI人工智能当前发展的主流趋势之一,其核心是以多模态知识的获取,表示与推理为主要内容的跨模态知识工程与认知智能,也是为了更好的处理多模态的数据,需要融合多种感知模态和智能处理技术。本文分享自华为云社区《GPT-4发布,AIGC时代的多模态还能走多远?系列之三:多......
  • 阿里达摩院-多模态-OFA
    OFA:UNIFYINGARCHITECTURES,TASKS,ANDMODALITIESTHROUGHASIMPLESEQUENCE-TO-SEQUENCELEARNINGFRAMEWORKhttps://arxiv.org/pdf/2202.03052.pdf阿里达摩院https://github.com/OFA-Sys/OFAWangP,YangA,MenR,etal.OFA:UnifyingArchitectures,Tasks,......
  • Hugging News #0414: Attention 在多模态情景中的应用、Unity API 以及 Gradio 主题构
    每一周,我们的同事都会向社区的成员们发布一些关于HuggingFace相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「HuggingNews」,本期HuggingNews有哪些有趣的消息,快来看看吧!社区动向Attention在视觉领域的应用注......