首页 > 其他分享 >多模态大模型+时间序列创新方案,刷新SOTA

多模态大模型+时间序列创新方案,刷新SOTA

时间:2024-07-03 17:00:06浏览次数:8  
标签:模态 预测 SOTA 模型 时间 刷新 序列 数据

传统时间序列无法有效捕捉数据中复杂的非线性关系,导致在处理具有复杂动力学特性的系统时效果不佳。为解决此问题,研究者提出了多模态+时间序列。 

时间序列数据与多模态数据的结合预测模型是一种新兴的数据分析方法,它结合了时间序列分析和多模态学习的技术,通过整合不同类型的数据(如文本、图像、音频等)来提高预测的准确性和鲁棒性。这种模型在多个领域都有广泛的应用,如金融预测、医疗诊断、自然语言处理等。

近期研究提出了多种创新方案,用以融合多模态和时间序列数据。这些方案包括但不限于:

1、基于阶梯注意力的多模态时间序列预测框架:这种方法结合了阶梯注意力模型和基于LSTM的时间序列预测模型,用于预测多个时间序列的未来走向。

2、多模态时间序列异常检测:例如MST-GAT模型,这是一种基于图注意力网络的新型多模态时间序列异常检测方法,能够探索显式建模时空依赖性进行异常检测。

3、自监督学习:多模态与时序数据SSRL的研究进展,通过无监督的方式学习数据的表示,这些模型可以利用大量未标记的多模态和时间数据来学习可转移到预测器的数据表示。

4、深度多模态表示学习:例如CorrRNN模型,它是一种新的时间融合模型,用于融合本质上多输入模态的时间序列数据,同时学习模态之间的联合表示和时间依赖性。

▷在预测任务中,多模态+时间序列能够整合来自不同类型数据源的信息,从而提供更全面的洞察,提高预测结果的准确性和鲁棒性,尤其在面对动态变化或噪声干扰时。 

▷在分析任务中,这种策略能够揭示不同数据模态之间的关联性,提供更深层次的洞见,从而更好地识别和解释时间序列中的特定模式,这些模式是通过单一模态难以觉察的。

在金融领域,多模态时间序列预测模型可以结合历史价格、新闻报道和社交媒体情绪等信息,对股票价格的未来走势进行更准确的预测。在医疗领域,结合患者的临床记录、医学影像和基因表达数据,可以提高疾病的诊断准确率和个性化治疗的实施效果。

多模态与时间序列数据的融合分析是当前人工智能领域的一个重要研究方向。通过结合多模态数据提供的丰富信息和时间序列数据的时间特性,可以更准确地理解和预测复杂现象的发展趋势。随着技术的不断进步,未来可能会有更多创新的方法被提出,以进一步提高数据融合的效能和准确性。

为帮助同学们深入了解该方向,获得灵感,本文分享多模态+时间序列创新方案,包含2024最新的成果,另外还帮同学们罗列了方法和创新点,更详细的工作细节还是建议各位仔细阅读原文。 

1、Predicting Sales Lift of Influencer-generated Short Video Advertisements: A Ladder Attention-based Multimodal Time Series Forecasting Framework

预测网红生成的短视频广告的销售提升:基于阶梯注意力的多模态时间序列预测框架

方法:论文提出了一个新的时间序列预测框架,利用阶梯注意力的多模态模型来预测多个ISA的销售增长。通过一个新颖的阶梯注意模型和一个定制的基于LSTM的时间序列预测模型,该框架解决了预测多个ISA销售增长的挑战。 

创新点

⑴首次提出了一种新颖的基于阶梯注意力的多模态时间序列预测框架,用于预测多个ISA的销售增长。该框架结合了一个新颖的阶梯注意力模型和一个定制的基于LSTM的时间序列预测模型,明显优于基线方法。

⑵识别了与短视频广告销售相关的多模态特征,为未来在多模态分析和短视频广告领域的研究提供了基础基准。

2、A multimodal time-series method for gifting prediction in live streaming platforms 

一种直播平台送礼预测的多模态时间序列方法

方法:论文提出了一种创新的多模态时间序列方法(MTM),通过融合直播流中的文本、音频和视觉信息,并利用正交投影模型(OP)和可堆叠的联合表示层,有效提高了对观众赠送行为的实时预测准确性,同时确保了模型的鲁棒性和可迁移性。

创新点:

⑴多模态信息融合:创新性地融合了直播中的文本、音频和视觉三种模态的信息,以全面捕捉影响观众赠送行为的因素。

⑵正交投影模型:提出了一种新的正交投影模型,用于在不增加额外参数的前提下,促进跨模态信息的有效交互,并减少信息冗余。

⑶联合表示层设计:设计了可堆叠的联合表示层,使得每种模态的信息能够在同等层次上相互补充,增强了模型对综合信息的处理能力。

⑷残差连接:引入残差连接以确保信息在不同层级间的有效传递,减少信息丢失,提升模型性能。

⑸实时预测能力:方法针对直播环境的实时性要求进行了优化,能够实时预测观众的赠送行为,对直播平台具有实际应用价值。 

3、GPT4MTS: Prompt-Based Large Language Model for Multimodal Time-Series Forecasting    GPT4MTS:基于提示的多模态时间序列预测大型语言模型

方法:论文提出基于提示调整的LLM模型GPT4MTS,用于具有多模态输入的时间序列预测。作者还提出了一种基于大型语言模型(LLM)的创新流程,可以生成与时间序列数据相对应的文本数据。作者展示了如何为数据集收集文本信息的一个例子。

创新点:

⑴提出了一个通用的流程,将文本数据纳入时间序列数据集中。此外,我们提出了GDELT数据集,按照我们提出的流程,它作为我们创新的流程和方法的实际应用。

⑵基于提出的流程,创建了一个基于GDELT的多模态时间序列预测数据集,该数据集包含时间序列数值和事件的文本摘要。GDELT数据库记录了全球事件及其相关的媒体报道,支撑着新闻在引导我们生活中的深远影响。我们的数据集的建立可以增强不同领域对多模态时间序列数据集的可访问性,并促进多模态计算传播分析的进一步研究。 

 4、A Multimodal Spatial-Temporal Graph Attention Network for Time Series Anomaly Detection  MST-GAT:用于时间序列异常检测的多模态时空图注意力网络

方法:论文提出了一种基于图注意力网络的新型多模态时间序列异常检测方法MST-GAT。MST-GAT通过联合优化变分自编码器的重构模块和多层感知机的预测模块,以整合它们的优点。

创新点:

⑴提出了MST-GAT,一种基于图注意力网络的新型MTS异常检测方法。MST-GAT是首个在多模态时间序列数据中探索显式建模时空依赖性进行异常检测的方法。

⑵综合优化了基于变分自动编码器的重构模块和多层感知器(MLP)的预测模块,以整合它们的优势。MST-GAT在基准数据集上表现出最高的F1分数,均在0.60以上,最佳AUC值,均在0.92以上,优于强基线。

⑶提出了一种基于重构和预测结果的高效异常解释方法。MST-GAT具有很好的可解释性,并能够获得与人类直觉一致的结果。 

 5、TimeCMA: Towards LLM-Empowered Time Series Forecasting via Cross-Modality Alignment  TimeCMA:通过跨模态对齐实现 LLM 赋能的时间序列预测

可扩展移动传感的广泛采用为实际应用带来了大量的时间序列数据。一个基本的应用是多变量时间序列预测 (MTSF),它旨在根据历史观测预测未来的时间序列值。

现有的MTSF方法存在参数化和小规模训练数据的问题。最近,大型语言模型(LLM)在时间序列中引入,它实现了可观的预测性能,但会产生沉重的计算成本。

为了解决这些挑战,我们提出了TimeCMA,这是一个由LLM授权的框架,用于具有跨模态对齐的时间序列预测。

我们设计了一个具有两个分支的双模态编码模块,其中时间序列编码分支通过反向转换器提取相对低质量但纯的时间序列嵌入。

此外,LLM 授权的编码分支将相同的时间序列包装为提示,以通过预训练的 LLM 获得高质量但纠缠的提示嵌入。

然后,我们设计了一个跨模态对齐模块,从提示嵌入中检索高质量和纯时间序列嵌入。此外,我们开发了一个时间序列预测模块来解码对齐的嵌入,同时捕获多个变量之间的依赖关系进行预测。

值得注意的是,我们定制了提示,将足够的时间信息编码到最后一个令牌中,并设计了最后一个令牌嵌入存储,以降低计算成本。对真实数据的广泛实验提供了对所提出框架的准确性和效率的见解。

6、MTSA-SNN:基于脉冲神经网络 的多模态时间序列分析模型

 Abstract—时间序列分析和建模是一个关键的研究领域。传统的人工神经网络由于计算复杂度高、捕获时间信息的能力有限以及难以处理事件驱动的数据而难以处理复杂的非平稳时间序列数据。为了应对这些挑战,我们提出了一种基于脉冲神经网络(MTSA-SNN)的多模态时间序列分析模型。

脉冲编码器将时间图像和序列信息的编码统一为一个通用的基于脉冲的表示形式。联合学习模块采用联合学习功能和权重分配机制, 将来自多模态脉冲信号的信息融合互补。此外,我们还结合了 小波变换操作,以增强模型分析和评估时间信息的能力。

实验结果表明,该方法在 3 个复杂的时间序列任务上取得了优 的性能。这项工作提供了一种有效的事件驱动方法,以克服与 分析复杂的时间信息相关的挑战。

⑴我们提出了一种基于脉冲神经网络的多模态时间序 列分析模型. 该模型引入了一种有效的事件驱动方法, 克服了传统时间序列分析方法的局限性。

⑵我们设计了 SNN 联合学习函数和权重分配机制,有 效地解决了脉冲信息的平衡和融合问题。

⑶我们将小波变换与脉冲网络协同,以增强模型分析复 杂和非平稳时间数据的能力。

⑷大量的实验证明了我们的方法在多个复杂的时间序列 数据集上的出色性能。

7、LSTPrompt: Large Language Models as Zero-Shot Time Series Forecasters by Long-Short-Term Prompting 
LSTPrompt:通过长期-短期提示将大型语言模型作为零样本时间序列预测器

时间序列预测 (TSF) 在实际场景中得到了广泛的应用。提示现成的大型语言模型 (LLM) 展示了强大的零样本 TSF 功能,同时保持了计算效率。

然而,现有的提示方法将 TSF 过度简化为语言下一个标记预测,忽略了其动态性质,并且缺乏与最先进的提示策略(如 Chain-of-Thought)的集成。

因此,我们提出了 LSTPrompt,这是一种在零样本 TSF 任务中提示 LLM 的新方法。LSTPrompt 将 TSF 分解为短期和长期预测子任务,并为每个子任务定制提示。LSTPrompt 指导 LLM 定期重新评估预测机制以增强适应性。广泛的评估表明,LSTPrompt 的性能始终优于现有的提示方法,并且与基础 TSF 模型相比具有竞争力。 


论文资料+论文指导发刊+kaggle组队+技术问题答疑
关注工重号:学长论文指导  发送211 领qu
AI资料包:1、超细AI学习路线
2、人工智能基础:Python基础、数学基础
3、机器学习:12大经典算法、10大案例实战、推荐系统
4、深度学习:Pytorch+TensorFlow等课程、NLP、神经网络
5、物体检测:YOLO、MASK-RCNN
6、计算机视觉:OpenCV、unet等
7、各阶段论文攻略合集包
8、人工智能经典书籍及行业报告

整理不易,欢迎大家点赞评论收藏!

手把手带你从做科研到论文发表,一条龙全方位指导!

避免各种常见or离谱的坑,顺顺利利学习,快快乐乐毕业~

0基础也能发论文吗?  导师放养? 毕业压力?

找不到热点课题和方向、没有idea、没有数据集,实验验证不了、代码跑不通

没有写作基础、不知道论文的含金量,

高区低投、不清楚不了解完整的科研经验,

评职称、申博压力、自我高区位的追求  都可以找我了解

 

 

标签:模态,预测,SOTA,模型,时间,刷新,序列,数据
From: https://blog.csdn.net/Java_college/article/details/140122091

相关文章

  • 多模态大模型入门指南
    作者:林夕,阿里巴巴集团高级算法工程师,专注多模态大模型研究。声明:本文只做分享,版权归原作者,侵权私信删除!原文:https://zhuanlan.zhihu.com/p/682893729内容总结,本篇综述主要介绍和分析了以下几个方面:•概述了MM-LLMs的设计形式,将模型架构分为5个部分:模态编码器、输入......
  • 最新AI源码-ChatGPT商业运营版系统源码,AI绘画网站系统,TTS & 语音识别对话、文档分析、
    一、前言人工智能语言模型和AI绘画在多个领域都有广泛的应用.....SparkAi创作系统是一款基于ChatGPT和Midjourney开发的智能问答和绘画系统,提供一站式AIB/C端解决方案,涵盖AI大模型提问、AI绘画、文档分析、图像识别和理解、TTS&语音识别、AI换脸等多项功能。支持GPTs应......
  • 超越所有SOTA达11%!媲美全监督方法 | UC伯克利开源UnSAM
    文章链接:https://arxiv.org/pdf/2406.20081github链接:https://github.com/frank-xwang/UnSAMSAM代表了计算机视觉领域,特别是图像分割领域的重大进步。对于需要详细分析和理解复杂视觉场景(如自动驾驶、医学成像和环境监控)的应用特别有价值。SAM的今天和大家一起学习的......
  • HTML增加页面刷新及其应用例子
    刷新一般指重新载入当前页面。本文先给出html页面刷新重载方法汇总,再给出示例。html页面刷新重载方法汇总一、javascript页面刷新重载的方法:<ahref="javascript:location.reload();">点击重新载入页面</a><ahref="javascript:history.go(0);">点击重新载入页面</a><ahr......
  • 【JavaScript脚本宇宙】打造完美用户体验:六大模态库全解析
    从美观到高效:六大模态库实战指南前言随着现代Web开发的不断进步和用户体验要求的提升,模态窗口(Modal)已成为网页设计中不可或缺的一部分。模态窗提供了一种直观而有效的方式来展示重要信息、提示用户操作或承载交互内容。本文将全面介绍六大流行的模态库,包括BootstrapModal......
  • 解析 Ferret-UI:多模态大模型在移动用户界面理解中的应用
    移动应用的爆炸性增长,用户界面(UI)的设计越来越复杂,功能也越来越丰富。但现有的多模态大模型(MLLMs)在理解用户界面时存在局限,尤其是在处理具有特定分辨率和包含众多小型对象(如图标、文本)的移动UI屏幕时。这些模型通常难以准确识别和操作界面上的特定元素,也难以执行基于自然语言......
  • 医疗AI革命,为何多模态大模型难以突破?
     在人工智能的浪潮中,多模态大模型以其强大的数据处理能力和深度学习算法,被寄予厚望于医疗影像分析、辅助诊断等领域。然而,现实情况却远非如此乐观。本文将带您深入了解多模态大模型在医疗辅助诊断领域的潜力与局限,揭示其面临的技术瓶颈和挑战。 医疗AI的潜力与局限多模......
  • 最新AI智能问答AI绘画ChatGPT系统、TTS & 语音识别,文档分析、GPT-4o多模态识图理解,一
    一、前言人工智能语言模型和AI绘画在多个领域都有广泛的应用。以下是一些它们的主要用处人工智能语言模型内容生成写作辅助:帮助撰写文章、博客、报告、剧本等。代码生成:自动生成或补全代码,提高编程效率。创意写作:生成故事、诗歌、歌词等创意性内容。对话系统客服系......
  • 最新AIGC系统源码-ChatGPT商业版系统源码,自定义ChatGPT指令Promp提示词,AI绘画系统,AI换
    目录一、前言系统文档二、系统演示核心AI能力系统快速体验三、系统功能模块3.1AI全模型支持/插件系统AI模型提问文档分析​识图理解能力3.2GPts应用3.2.1GPTs应用3.2.2GPTs工作台3.2.3自定义创建Promp指令预设应用3.3AI专业绘画3.3.1文生图/图生图(垫图)......
  • 52单片机超声波测距时无法刷新检测的问题
    本实验采用超声波模块HC-SR04模块进行测量距离,假设距离短则LED1亮,反之LED2亮#include"reg52.h"sbitled1=P3^7;sbitled2=P3^6;sbitTrig=P1^5;sbitEcho=P1^6;voidDelay10us()      //@11.0592MHz{   unsignedchari;   i=2; ......