首页 > 其他分享 >Spatial-Temporal Large Language Model for Traffic Prediction

Spatial-Temporal Large Language Model for Traffic Prediction

时间:2024-10-12 21:45:35浏览次数:12  
标签:误差 12 预测 Language Temporal Prediction 嵌入 时间 模型

1. 输入数据

这符合时间序列预测的典型设置:

  • 输入数据包含多个特征(如历史的流量、天气、时间等),这些特征用于帮助模型进行预测。
  • 输出数据则通常是要预测的目标变量,比如未来某个时间步的流量或温度,这个目标变量是一个单一的值,因此输出通道数是 1。
  • x_train 包含多个特征(3 个通道),作为模型输入。
  • y_train 是模型的目标输出(1 个通道),表示每个时间步的真实值,模型需要通过学习从多个特征预测出这个单一目标值。

输入数据预测数据的含义与序列建模中的典型任务一致,应该是基于过去的时间步预测未来的时间步

  • 输入数据:输入数据的形状为 (64, 12, 250, 3)
  • 预测数据:预测数据的形状为 (64, 12, 250, 1)
  • 预测任务:是基于过去 12 个时间步的数据来预测未来的 12 个时间步。

2. 时间维度的embedding

拼接下面三种生成的嵌入,做线性变换

拼接三个channel的特征 (12个时间步),做线性变换

站点标记的嵌入

站点小时嵌入和星期几嵌入的结合

  • 小时嵌入 (time_day):提取每个节点在最后一个时间步的小时信息,经过嵌入矩阵映射为 256 维的向量,并调整维度以适应后续操作。self.time_day 可以看作嵌入的“字典”或查找表,其中键是小时(0 到 47),值是相应的 256 维嵌入向量,模型通过根据节点的时间信息在该“字典”中查找相应的向量,生成高维特征。

  • 星期几嵌入 (time_week):提取每个节点在最后一个时间步的星期几信息,同样经过嵌入矩阵映射为 256 维的向量。self.time_week 可以看作嵌入的“字典”或查找表,其中键是星期几(0 到 6),值是相应的 256 维嵌入向量,模型通过根据节点的时间信息在该“字典”中查找相应的向量,生成高维特征。

  • 时间嵌入 (tem_emb):将小时和星期几的嵌入相加,得到最终的时间嵌入,用于捕捉节点的时空特征。

3. GPT微调的过程

4. 预测的过程

也采用的是线性变换,将768维度转变为12维度

xx. 三种损失

MAPE, RMSEWMAPE 是三种不同的误差度量,它们用来衡量模型的预测值与真实值之间的误差。让我们分别解释这三种误差度量的定义和它们的作用:
三种误差度量的总结:

  • MAPE:衡量的是预测值与真实值之间的相对百分比误差,适合比较模型的相对误差。由于分母是实际值,零值或接近零值可能导致计算不稳定。
  • RMSE:衡量的是预测值与真实值的绝对误差,较为敏感于大误差,适合检测模型在预测中出现的大偏差。
  • WMAPE:与 MAPE 类似,但通过加权真实值来平衡误差的影响,更加稳健,能够避免 MAPE 的一些缺陷。

这些误差度量的共同作用是帮助你更全面地评估模型的预测性能。

标签:误差,12,预测,Language,Temporal,Prediction,嵌入,时间,模型
From: https://www.cnblogs.com/csjywu01/p/18460322

相关文章

  • PatentGPT: A Large Language Model for Patent Drafting Using Knowledgebased Fine-
    本文是LLM系列文章,针对《PatentGPT:ALargeLanguageModelforPatentDraftingUsingKnowledgebasedFine-tuningMethod》的翻译。PatentGPT:一种使用基于知识的微调方法进行专利起草的大型语言模型摘要1引言2相关工作3提出的方法4实验5基准测试6总结......
  • Vision-Language and Large Language Model Performance in Gastroenterology: GPT, C
    本文是LLM系列文章,针对《Vision-LanguageandLargeLanguageModelPerformanceinGastroenterology:GPT,Claude,Llama,Phi,Mistral,Gemma,andQuantizedModels》的翻译。胃肠病学中的视觉语言和大型语言模型表现:GPT、Claude、Llama、Phi、Mistral、Gemma和量......
  • A Taxonomy for Data Contamination in Large Language Models
    本文是LLM系列文章,针对《ATaxonomyforDataContaminationinLargeLanguageModels》的翻译。大型语言模型中数据污染的分类法摘要1引言2分类3方法4案例研究:摘要5案例研究:问答6分析7结论8局限性摘要在广泛的Web语料库上预训练的大型语言模......
  • 论文解读《MASTERKEY: Automated Jailbreaking of Large Language Model Chatbots》
    导言​ 在参加东南大学网络安全学院夏令营的契机下,我第一次接触大模型安全领域。L老师是网络安全领域的一位大牛,在和L老师交流期间,被告知需要准备一次paperpresentation介绍四大会中感兴趣的一篇文章,我选择了汇报这篇来自NDSS2024的《MASTERKEY:AutomatedJailbreakingofLarg......
  • Explicit Inductive Inference using Large Language Models
    本文是LLM系列文章,针对《ExplicitInductiveInferenceusingLargeLanguageModels》的翻译。使用大型语言模型进行显式归纳推理摘要1引言2相关工作3显示归纳推理4实验设置5结果和讨论6结论局限性摘要据报道,大型语言模型(LLM)在推理任务上存在不......
  • A Closer Look into Mixture-of-Experts in Large Language Models
    本文是LLM系列文章,针对《ACloserLookintoMixture-of-ExpertsinLargeLanguageModels》的翻译。仔细研究大型语言模型中的专家混合摘要1引言2前言:混合专家3概述4静态参数分析5动态行为分析6讨论7相关工作8结论9局限性摘要专家混合(MoE)因其......
  • LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models
    本文是LLM系列文章,针对《LogParser-LLM:AdvancingEfficientLogParsingwithLargeLanguageModels》的翻译。LogParser-LLM:利用大型语言模型推进高效日志解析摘要1引言2相关工作和动机3日志解析粒度4方法5实验6结论摘要日志是无处不在的数字足迹......
  • LoRA: Low-Rank Adaptation of Large Language Models 笔记
    问题背景⼤模型通常包含数亿甚⾄数百亿个参数,对其进⾏微调需要⼤量的计算资源和存储空间。在微调过程中,直接修改预训练模型的所有参数可能会破坏模型的原始性能。存储和部署微调后的⼤模型需要⼤量存储空间,尤其是当需要在多个应⽤场景中部署不同微调版本时。许多微调⽅法会增......