1. 输入数据

这符合时间序列预测的典型设置：

输入数据包含多个特征（如历史的流量、天气、时间等），这些特征用于帮助模型进行预测。
输出数据则通常是要预测的目标变量，比如未来某个时间步的流量或温度，这个目标变量是一个单一的值，因此输出通道数是 1。
x_train 包含多个特征（3 个通道），作为模型输入。
y_train 是模型的目标输出（1 个通道），表示每个时间步的真实值，模型需要通过学习从多个特征预测出这个单一目标值。

输入数据和预测数据的含义与序列建模中的典型任务一致，应该是基于过去的时间步预测未来的时间步。

输入数据：输入数据的形状为 (64, 12, 250, 3)
预测数据：预测数据的形状为 (64, 12, 250, 1)
预测任务：是基于过去 12 个时间步的数据来预测未来的 12 个时间步。

2. 时间维度的embedding

拼接下面三种生成的嵌入，做线性变换

拼接三个channel的特征 (12个时间步)，做线性变换

站点标记的嵌入

站点小时嵌入和星期几嵌入的结合

小时嵌入 (time_day)：提取每个节点在最后一个时间步的小时信息，经过嵌入矩阵映射为 256 维的向量，并调整维度以适应后续操作。self.time_day 可以看作嵌入的“字典”或查找表，其中键是小时（0 到 47），值是相应的 256 维嵌入向量，模型通过根据节点的时间信息在该“字典”中查找相应的向量，生成高维特征。
星期几嵌入 (time_week)：提取每个节点在最后一个时间步的星期几信息，同样经过嵌入矩阵映射为 256 维的向量。self.time_week 可以看作嵌入的“字典”或查找表，其中键是星期几（0 到 6），值是相应的 256 维嵌入向量，模型通过根据节点的时间信息在该“字典”中查找相应的向量，生成高维特征。
时间嵌入 (tem_emb)：将小时和星期几的嵌入相加，得到最终的时间嵌入，用于捕捉节点的时空特征。

3. GPT微调的过程

4. 预测的过程

也采用的是线性变换，将768维度转变为12维度

xx. 三种损失

MAPE, RMSE 和 WMAPE 是三种不同的误差度量，它们用来衡量模型的预测值与真实值之间的误差。让我们分别解释这三种误差度量的定义和它们的作用：
三种误差度量的总结：

MAPE：衡量的是预测值与真实值之间的相对百分比误差，适合比较模型的相对误差。由于分母是实际值，零值或接近零值可能导致计算不稳定。
RMSE：衡量的是预测值与真实值的绝对误差，较为敏感于大误差，适合检测模型在预测中出现的大偏差。
WMAPE：与 MAPE 类似，但通过加权真实值来平衡误差的影响，更加稳健，能够避免 MAPE 的一些缺陷。

这些误差度量的共同作用是帮助你更全面地评估模型的预测性能。

标签：误差,12,预测,Language,Temporal,Prediction,嵌入,时间,模型
From： https://www.cnblogs.com/csjywu01/p/18460322

PatentGPT: A Large Language Model for Patent Drafting Using Knowledgebased Fine-
本文是LLM系列文章，针对《PatentGPT:ALargeLanguageModelforPatentDraftingUsingKnowledgebasedFine-tuningMethod》的翻译。PatentGPT：一种使用基于知识的微调方法进行专利起草的大型语言模型摘要1引言2相关工作3提出的方法4实验5基准测试6总结......
Vision-Language and Large Language Model Performance in Gastroenterology: GPT, C
本文是LLM系列文章，针对《Vision-LanguageandLargeLanguageModelPerformanceinGastroenterology:GPT,Claude,Llama,Phi,Mistral,Gemma,andQuantizedModels》的翻译。胃肠病学中的视觉语言和大型语言模型表现：GPT、Claude、Llama、Phi、Mistral、Gemma和量......
A Taxonomy for Data Contamination in Large Language Models
本文是LLM系列文章，针对《ATaxonomyforDataContaminationinLargeLanguageModels》的翻译。大型语言模型中数据污染的分类法摘要1引言2分类3方法4案例研究：摘要5案例研究：问答6分析7结论8局限性摘要在广泛的Web语料库上预训练的大型语言模......
论文解读《MASTERKEY: Automated Jailbreaking of Large Language Model Chatbots》
导言在参加东南大学网络安全学院夏令营的契机下，我第一次接触大模型安全领域。L老师是网络安全领域的一位大牛，在和L老师交流期间，被告知需要准备一次paperpresentation介绍四大会中感兴趣的一篇文章，我选择了汇报这篇来自NDSS2024的《MASTERKEY:AutomatedJailbreakingofLarg......
Explicit Inductive Inference using Large Language Models
本文是LLM系列文章，针对《ExplicitInductiveInferenceusingLargeLanguageModels》的翻译。使用大型语言模型进行显式归纳推理摘要1引言2相关工作3显示归纳推理4实验设置5结果和讨论6结论局限性摘要据报道，大型语言模型(LLM)在推理任务上存在不......
A Closer Look into Mixture-of-Experts in Large Language Models
本文是LLM系列文章，针对《ACloserLookintoMixture-of-ExpertsinLargeLanguageModels》的翻译。仔细研究大型语言模型中的专家混合摘要1引言2前言：混合专家3概述4静态参数分析5动态行为分析6讨论7相关工作8结论9局限性摘要专家混合（MoE）因其......
LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models
本文是LLM系列文章，针对《LogParser-LLM:AdvancingEfficientLogParsingwithLargeLanguageModels》的翻译。LogParser-LLM：利用大型语言模型推进高效日志解析摘要1引言2相关工作和动机3日志解析粒度4方法5实验6结论摘要日志是无处不在的数字足迹......
LoRA: Low-Rank Adaptation of Large Language Models 笔记
问题背景⼤模型通常包含数亿甚⾄数百亿个参数，对其进⾏微调需要⼤量的计算资源和存储空间。在微调过程中，直接修改预训练模型的所有参数可能会破坏模型的原始性能。存储和部署微调后的⼤模型需要⼤量存储空间，尤其是当需要在多个应⽤场景中部署不同微调版本时。许多微调⽅法会增......

Spatial-Temporal Large Language Model for Traffic Prediction