首页 > 其他分享 >COLD冷融合:不确定性感知多模态情绪识别的校准和顺序潜在分布融合

COLD冷融合:不确定性感知多模态情绪识别的校准和顺序潜在分布融合

时间:2024-07-04 21:02:44浏览次数:25  
标签:模态 不确定性 置信度 预测 校准 融合 COLD 排序

论文标题:COLD Fusion: Calibrated and Ordinal Latent Distribution Fusion for Uncertainty-Aware Multimodal Emotion Recognition

中文译名:不确定性感知多模态情绪识别的校准和顺序潜在分布融合

原文地址:https://ieeexplore.ieee.org/abstract/document/10287630/


背景:

深度神经网络(DNNs)已广泛应用于多模态情感识别[8],[9],[10],[11],但估计模态不确定性以提高融合性能是一个相对未被探索的途径。然而,近年来,dnn中预测不确定性(或与其相反的置信度)的建模受到了广泛关注[12],[13],[14],其动机是观察到dnn倾向于做出过度自信的预测[15],[16]。大多数针对深度神经网络中不确定性或置信度估计的现有努力[13],[17]仅关注于减少误校准误差,即预期模型估计误差与其相应置信度评分之间的不匹配。最近,作为另一种观点,Moon等人[18]引入了学习对置信度评分进行排序的想法,以确定最可靠的预测。

在这项工作中,我们认为,估计的不确定性分数必须同时校准和排序良好(序数)。前者需要准确地表示单个样本预测的正确性可能性。后者对于根据一组样本的正确可能性有效地排序预测至关重要。换句话说,如果对单个样本的不确定性估计经过了很好的校准,在缺乏其基本真理的情况下,不确定性得分可以作为其预期预测误差的代理。如果与不同预测相关的不确定性分数排序良好或保持有序,则可以使用它们根据其对目标预测的可靠性对相应的样本进行排序,并区分信息最多的样本和信息最少的样本。

问题:

从面部和声音中自动识别明显的情绪是很困难的,部分原因是各种不确定性的来源,包括输入数据和机器学习框架中使用的标签。

方法:

        首先估计单模态时间输入的不确定性,然后将这些不确定性估计应用于计算基于模态的融合权重。

(专注于估计多模态情感识别模型中模态的任意不确定性。)

融合框架:

        单峰时间背景下的潜在分布通过约束其方差来学习

方差约束,校准和序数排序,是这样设计的:

        对一种模态估计的方差:表示该模态的时间背景的信息量有多大。

        当校准得很好时,模态不确定性分数:表明他们相应的预测可能与基础真理标签有多大差异。

        排序良好的不确定性分数允许对不同模态的不同框架进行有序排序。

为了同时施加这两个约束,提出了softmax分布匹配损失。

模型COLD:

首先分别学习音频和视觉模式的时间背景下的潜在分布(多元正态分布)。然后将音频和视觉潜分布的方差值σV和σA建模,作为情绪预测的置信度度量。设计了一个基于softmax分布匹配的新训练目标,以鼓励每个模态的方差规范值:(a)与单模态预测的正确性可能性强相关,(b)本质上有序,以有效地对不同模态与情绪识别的相关性进行排序。因此,学习校准和有序的单峰方差分数进行有效的不确定性加权融合

训练损失计算:

 

标签:模态,不确定性,置信度,预测,校准,融合,COLD,排序
From: https://blog.csdn.net/weixin_61681867/article/details/140189543

相关文章

  • 对标 GPT-4o,法国开源实验室发布多模态大模型 Moshi;腾讯汤道生:AI 领域不应只关注大模型
      开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,......
  • 阿基米德算法优化变分模态分解AOA-VMD数字信号去噪(优化K值 alpha值 )【含Matlab源码 48
    ......
  • 前端与AI融合:打造图片识别应用
    前言在当今的技术环境中,人工智能(AI)与前端开发的融合越来越普遍。其中一个显著的应用是在图像识别中,AI算法可以检测和标记图像中的对象,增强用户体验,并在网站或应用程序上实现创新功能。下面将给出完成图片识别功能简易代码示例与讲解:先决条件:在继续之前,请确保您对HTML、C......
  • 对标 GPT-4o 的开源实时语音多模态模型:Moshi
     是由法国的AI实验室 Kyutai 推出的实时语音多模态模型,支持听、说、看,最关键的是你现在就可以在浏览器中使用,如果这个链接延迟高,可以试试这个,无需输入邮箱,点击Joinqueue即可。简单体验了下,比较笨笨的,延迟很低,可以随时打断,如果你一直不说话还会主动找你,很接近GPT-4o......
  • IJCV 2024 | CoCoNet:用于多模态图像融合的耦合对比学习网络与多级特征集成
    CoCoNet:CoupledContrastiveLearningNetworkwithMulti-levelFeatureEnsembleforMulti-modalityImageFusionCoCoNet:用于多模态图像融合的耦合对比学习网络与多级特征集成JinyuanLiu;RunjiaLin;GuanyaoWu;RishengLiu;Zhongxuan;LuoXinFan更多TPAMI,IJCV......
  • 多模态大模型+时间序列创新方案,刷新SOTA
    传统时间序列无法有效捕捉数据中复杂的非线性关系,导致在处理具有复杂动力学特性的系统时效果不佳。为解决此问题,研究者提出了多模态+时间序列。 时间序列数据与多模态数据的结合预测模型是一种新兴的数据分析方法,它结合了时间序列分析和多模态学习的技术,通过整合不同类型的数......
  • 多模态大模型入门指南
    作者:林夕,阿里巴巴集团高级算法工程师,专注多模态大模型研究。声明:本文只做分享,版权归原作者,侵权私信删除!原文:https://zhuanlan.zhihu.com/p/682893729内容总结,本篇综述主要介绍和分析了以下几个方面:•概述了MM-LLMs的设计形式,将模型架构分为5个部分:模态编码器、输入......
  • 最新AI源码-ChatGPT商业运营版系统源码,AI绘画网站系统,TTS & 语音识别对话、文档分析、
    一、前言人工智能语言模型和AI绘画在多个领域都有广泛的应用.....SparkAi创作系统是一款基于ChatGPT和Midjourney开发的智能问答和绘画系统,提供一站式AIB/C端解决方案,涵盖AI大模型提问、AI绘画、文档分析、图像识别和理解、TTS&语音识别、AI换脸等多项功能。支持GPTs应......
  • 07/02/2024 融合热身赛赛后总结&题解
    一、总体情况考试一共有五道题。这次考试失误严重,C题非常水的一道题做了快两个小时,严重影响了心态和做其它题的时间。最终3个小时只做了A,C......
  • 基于字符和词特征融合的恶意域名检测
    传统的恶意域名检测方法在检测由域名生成算法(DGA)随机生成的恶意域名方面性能不佳,尤其是对于那些由随机单词组成的域名。文章提出了一种新的检测算法,通过融合字符和词特征来提高对恶意域名的检测能力,特别是对于更具挑战性的恶意域名家族。CWNet算法:该算法利用并行卷积神经网......