ClimaX

摘要：当前大多数模型使用整理好的同质的数据，也就是说针对特定数据特定下游任务的。ClimaX使用跨越不同变量、空间位置、物理基础的异构数据，也就是说是一个经过自监督预训练（CMIP6）的大模型。

intro：

第一个问题：训练大模型要使用非常大的数据集进行与训练，NLP和CV使用了互联网规模的数据进行训练。但是对于climax来说，什么才算是互联网规模的并不清楚，观测数据由于自然规律的限制，每天只是线性增长。该研究第一个提议就是使用模式数据，CMIP6对climax进行预训练。

第二个问题：使用什么模型架构能够应对自然数据的异构，不光是各种类型的变量，有些数据的时空覆盖范围甚至是不规则的，答案就是vit。之前工作都是将不同变量作为不同channel，本工作直接作为不同模态，灵活训练的同时也能应对不规则的数据集。但是这样做会增加序列长度带来的副作用，我们提出了一个交叉注意式的通道聚合来解决该问题。

第三个问题：需要一个预训练任务，我们提出了随机预测，预测任意变量在未来任意时间的值（会加入一个时间编码，来确定究竟预测未来多久）。

该方法的benchmark结果是ClimateBench上的SOTA，并且对比WeatherBench上的集合预报（IFS）也是有竞争力的

数据：CMIP6是各种模式数据，ERA5是再分析数据

CMIP6用于预训练，因为数据量足够大，能够提供足够多的异质数据。ERA5用于微调和评估，作为最终认定的标准（微调的目标是确定最后参数，该参数用于最后的评估，说明作者认为EAR5是更可信的）

方法：We mainly work with two spatial resolutions: 5.625° (32 × 64 grid points) and 1.40625° (128 × 256 grid points)，该工作的数据分辨率极低

variable tonkenization：image是RGB三个channel直接连在一起转token，这里说因为每个模式跑的变量不一样，所以分别tokenization

variable aggregation：把分别转token的n个变量，聚合成一个综合向量⭐⭐⭐

整体架构上基本沿用ViT，所以该工作是分好Patch在全局上进行注意力计算的

此外我大概看了一下，他提到注意力块和“预测头”，这可能不是对称的编解码结构，可能就一个小的预测头，但是注意微调阶段，这个预测头是要换掉的

在损失函数上，有一个纬度权重

标签：预测,训练,ClimaX,CMIP6,数据,变量
From： https://www.cnblogs.com/andoblog/p/17505465.html

相关文章

赞助商

阅读排行