首页 > 其他分享 >说一说和transformer的embedding 的区别

说一说和transformer的embedding 的区别

时间:2024-08-05 20:59:07浏览次数:24  
标签:transformer 说一说 embedding Transformer token 时间 Embedding 序列 变量

在iTransformer模型中,Embedding层与传统Transformer模型中的Embedding层存在显著的区别。这些区别主要体现在对时间序列数据的处理方式以及如何利用Transformer组件来捕捉时间序列中的信息。

传统Transformer的Embedding

在传统的Transformer模型中,Embedding层通常用于将离散的输入(如单词或标记)映射到连续的向量空间中。在时间序列预测的上下文中,如果采用传统的Transformer架构,通常会将同一时间戳下的多个变量(或称为特征)打包成一个token进行Embedding。然而,这种方式可能会带来一些问题,因为不同变量可能具有不同的物理意义和延迟效应,将它们简单地打包成一个token可能会丢失这些信息。

iTransformer的Embedding

相比之下,iTransformer采用了一种“倒置”的视角来处理时间序列数据。它不再将同一时间戳下的多个变量打包成一个token,而是将每个变量的整个时间序列独立地Embedding为一个token。具体来说,每个时间序列变量(例如,温度、湿度等)的所有历史观测值被看作是一个独立的序列,这个序列被整体嵌入为一个token。这样,每个token都代表了一个变量在时间维度上的完整信息。

例子对比

假设我们有一个包含温度和湿度的多变量时间序列。

传统Transformer
  • Embedding:在同一时间戳t,将温度和湿度的值打包成一个token [温度_t, 湿度_t],然后对这个token进行Embedding。这样,不同时间戳下的token之间主要反映了时间上的变化,而同一token内的变量之间则没有明确的区分。
  • 问题:可能无法有效地捕捉不同变量之间的延迟效应和相关性。
iTransformer
  • Embedding:将温度的所有历史观测值(例如,温度_1, 温度_2, ..., 温度_n)看作是一个序列,并将其整体嵌入为一个token(称为温度token)。同样,将湿度的所有历史观测值嵌入为另一个token(称为湿度token)。
  • 注意力机制:在Transformer的注意力层中,这些token(每个代表一个变量的时间序列)之间通过注意力机制进行交互,从而捕捉不同变量之间的相关性。
  • FNN:在Transformer的FNN(Feed-Forward Network)层中,每个token(即每个变量的时间序列)独立地通过FNN进行进一步的处理,以学习时间序列内部的表示。

通过这种方式,iTransformer能够更有效地捕捉时间序列数据中变量之间的相关性,并且能够在不改变Transformer基本组件的情况下,通过对数据表示方式的创新,来提升时间序列预测的性能。

标签:transformer,说一说,embedding,Transformer,token,时间,Embedding,序列,变量
From: https://blog.csdn.net/weixin_52153243/article/details/140936682

相关文章

  • 为什么 Langchain HuggingFaceEmbeddings 模型尺寸与 HuggingFace 上所述的不一样
    我使用的是langchainHuggingFaceEmbeddings模型:dunzhang/stella_en_1.5B_v5。当我查看https://huggingface.co/spaces/mteb/leaderboard时,我可以看到型号是8192。但当我这样做时len(embed_model.embed_query("heyyou"))它给了我1024。请问为什么会有这种差......
  • Scalable Diffusion Models with Transformers(DIT)代码笔记
    完整代码来源:DiTDiT模型主要是在diffusion中,使用transformer模型替换了UNet模型,使用class来控制图像生成。根据论文,模型越大,patchsize越小,FID越小。模型越大,参数越多,patchsize越小,参与计算的信息就越多,模型效果越好。模型使用了Imagenet训练,有1000个分类,class_labe......
  • 【创新未发表】Matlab实现蚁狮优化算法ALO-Kmean-Transformer-LSTM组合状态识别算法研
    蚁狮优化算法(AntLionOptimisation,ALO)是一种启发式优化算法,灵感来源于蚁狮捕食过程中的行为。这种算法模拟了蚁狮捕食中的策略,其中蚁狮通过在环境中设置虚拟陷阱来吸引蚂蚁,然后捕食这些落入陷阱的蚂蚁。在算法中,蚁狮代表潜在解决方案,而虚拟陷阱代表目标函数的局部最小值。......
  • AI全知道 - 测试人员应该了解的Embedding Model知识结构
    引言在人工智能和机器学习领域,嵌入模型(EmbeddingModel)逐渐成为不可或缺的工具。对于软件测试人员来说,了解嵌入模型的基本概念和应用场景,不仅有助于更好地理解AI系统的工作原理,还能提升在测试AI驱动应用时的有效性。本文将从嵌入模型的定义、主要应用、常见类型及具体案例......
  • Context-Aware Safe Medication Recommendations with Molecular Graph and DDI Graph
    这篇文章是2023年AAAI会议上的一篇论文,主要是利用分子图和DDI图嵌入来提供上下文感知信息,从而进行安全药物推荐。链接Context-AwareSafeMedicationRecommendationswithMolecularGraphandDDIGraphEmbedding|ProceedingsoftheAAAIConferenceonArtificialInt......
  • Transformer 工作流程(大白话版)
    Transformer工作流程:通俗易懂的解释想象一下,你在参加一个创意写作班,你和其他几位同学一起写一篇故事。老师会让每个人轮流写一段,但在写之前,你们可以参考之前同学写的内容。这有点像Transformer的工作流程。让我们一步步来解释。编码器(Encoder)1.输入嵌入层(InputEmbed......
  • 如何理解词向量、Transformer模型以及三个权重矩阵
    词向量与transformer 生成词向量的过程和训练Transformer的过程是两个不同的过程,但它们都是自然语言处理中的重要组成部分。#词向量的生成词向量(如Word2Vec、GloVe、FastText等)通常是通过预训练的词嵌入模型得到的。这些模型在大规模文本数据上训练,捕捉词与词之间的语义关系,......
  • Transformer预测模型及其Python和MATLAB实现
    ###一、背景在自然语言处理(NLP)领域,传统的序列到序列(Seq2Seq)模型大多依赖于循环神经网络(RNN)和长短期记忆(LSTM)网络。这些模型虽然在许多任务中取得了成功,但由于其计算效率低下以及长距离依赖关系处理的不足,导致模型训练时间漫长,并在处理较长文本时效果不佳。2017年,Vaswani等人......
  • OpenAI发布PVG:用小模型验证大模型输出解决“黑盒”难题,韩国团队拆分Transformer注意力
    OpenAI发布PVG:用小模型验证大模型输出解决“黑盒”难题,韩国团队拆分Transformer注意力让大模型解码提速20倍,微软、OpenAI、英特尔、谷歌、英伟达,成立开源大模型安全联盟。在今年的7月11日,全球著名开源大模型分享平台HuggingFace与专业数学大模型平台Numina合作,共同角逐AI......
  • 锂电池剩余寿命预测 | Matlab基于Transformer-LSTM的锂电池剩余寿命预测
    目录预测效果基本介绍程序设计参考资料预测效果基本介绍Matlab基于Transformer-LSTM的锂电池剩余寿命预测,Transformer结合长短期记忆神经网络。Matlab基于Transformer-LSTM的锂电池剩余寿命预测(单变量)运行环境Matlab2023b及以上。首先从NASA数据集中提......