首页 > 其他分享 >盘古天气大模型

盘古天气大模型

时间:2023-06-28 10:55:43浏览次数:48  
标签:聚合 预测 迭代 模型 天气 盘古 训练 时间

摘要:ERA5数据训练。创新:1. 三维transformer 2. 层级结构的时间聚合算法,能够缓解误差累积

硬件:华为云 192个英伟达 Tesla-V100,100epoch训15天

方法:预训练任务就是预测

和Climax一样,没有采用迭代预测,而是指定Δt,直接进行预测。但是前者使用的是时间编码,让模型来识别需要预测多久的,这里使用不同的lead time使用不同的model,然后使用模型聚合的方式实现指定时间

编解码结构是类似unet,编码下采样一次,解码上采样一次

具体自注意力计算方式只是非常简单的提了一句用了shifted-window方式,然后给了一篇文献,不知道和swin有多相似,但是明确说了自注意力是在窗口内计算的。

这里有一个比较特色的贡献就是改了一下注意力计算中的bias项,提出了一个适合地球特征的B。原始版本应该是不分维度和高度,全图都使用同一套自注意力参数,也就是同一个B,这里提出根据纬度和高度给出不同的B,其本质是多了许多可学习的参数。这里有一个很重要的点,作者说在实际操作中, 并没有发现因为增加了大量的参数而训练困难,反而因为引入了有效的先验知识(不同纬度和高度应该不同对待),模型收敛的更快了。

好像climax还是哪个用的是基于地球特征的损失函数权重,也就是说极地地区密集分布点的位置给少一点权重,赤道地区显然每个点的预测结果更重要,权重更大。

以上两种方式,如果将来做全球的,需要参考

时间聚合:作者发现迭代预测的误差累积无法避免,如果将一次预测的时间步长缩短,那么预测到同样未来时间长度就需要更多的时间步,这样的做法会让累计误差急剧增大。所以不管你预测多远的未来,更多的迭代次数一定会带来更大的误差。反之如果一次预测的时间步长缩短,更少的迭代次数通常能带来更好的结果。所以这里提出了时间聚合算法,分别训练了1/3/6/24小时预测模型,在给定预测时间后,模型自动选择迭代步骤最少的一个组合。说白了就是用支付纸币的组合方案。作者指出时间聚合算法也使得模型更容易训练。

上面说的四种时间长度模型都在192个tesla-V100上训练了16天,但还没有到最优。作者反复提及训练开销太大了,100epoch并没有下降到最优,同时模型的超参也没有调等等

标签:聚合,预测,迭代,模型,天气,盘古,训练,时间
From: https://www.cnblogs.com/andoblog/p/17509005.html

相关文章

  • ChatGLM-6B第二代模型开源,拿下LLM模型中文能力评估榜单第一名
    ChatGLM-6B自3月14日发布以来,深受广大开发者喜爱。截至6月24日,来自Huggingface上的下载量已经超过300w。为了更进一步促进大模型开源社区的发展,我们再次升级ChatGLM-6B,发布ChatGLM2-6B。在主要评估LLM模型中文能力的C-Eval榜单中,截至6月25日ChatGLM2模型以71.1的......
  • 大语言模型的开发利器langchain
    目录简介什么是langchainlangchain的安装langchain快速使用构建应用聊天模式Prompt的模板ChainsAgentsMemory总结简介最近随着chatgpt的兴起,人工智能和大语言模型又再次进入了人们的视野,不同的是这一次像是来真的,各大公司都在拼命投入,希望能在未来的AI赛道上占有一席之地。因为A......
  • R语言广义加性混合模型(GAMM)分析长沙气象因子、空气污染、PM2.5浓度、显著性检验、逐
    全文链接:https://tecdat.cn/?p=32981原文出处:拓端数据部落公众号气候变化和空气污染对现代社会产生了越来越大的影响。在这种背景下,研究气象和空气污染之间的关系以及其对PM2.5浓度的影响变得非常重要。为了更好地理解和解释这些关系,广义加性混合模型(GAMM)成为一种强大的工具。......
  • R语言JAGS贝叶斯回归模型分析博士生延期毕业完成论文时间|附代码数据
    原文链接:http://tecdat.cn/?p=23652最近我们被客户要求撰写关于贝叶斯回归的研究报告,包括一些图形和统计输出。本文为读者提供了如何进行贝叶斯回归的基本教程。包括完成导入数据文件、探索汇总统计和回归分析 ( 点击文末“阅读原文”获取完整代码数据******** )。在本文中,我......
  • R语言使用多元AR-GARCH模型衡量市场风险|附代码数据
    原文链接:http://tecdat.cn/?p=19118最近我们被客户要求撰写关于GARCH的研究报告,包括一些图形和统计输出。本文分析将用于制定管理客户和供应商关系的策略准则假设:贵公司拥有用于生产和分销聚戊二酸的设施,聚戊二酸是一种用于多个行业的化合物。制造和分销过程的投入包括各种......
  • 行行AI人才直播第4期: 跟随占冰强老师走近《如何定制企业专属AI大模型?》
    行行AI人才是博客园和顺顺智慧共同运营的AI行业人才全生命周期服务平台。每个企业定制专属AI大模型的目的都不同,比如某企业希望通过AI技术提升其客户服务和销售效果。该企业面临着庞大的商品数据、用户评价和客户咨询等信息,传统的处理方法已经无法满足快速发展的需求。为了更......
  • 使用 Transformers 为多语种语音识别任务微调 Whisper 模型
    本文提供了一个使用HuggingFace......
  • yolov5实战之模型剪枝
    续yolov5实战之二维码检测目录前沿为什么要做轻量化什么是剪枝稀疏化训练剪枝微调结语模型下载前沿  在上一篇yolov5的博客中,我们用yolov5训练了一个二维码检测器,可以用来检测图像中是否有二维码,后续可以接一个二维码解码器,就可以解码出二维码的信息了(后续可以聊聊)。这篇博客......
  • Self-Instruct 论文解读:利用大模型自己给自己生成指令数据,指令数据自动生成
    总览大规模“指令调整”的语言模型,即指令微调的LLM,已经表现出非凡的零样本能力,尤其是推广新任务上。然而,这些模型严重依赖于人类编写的指令数据,而这些数据通常在数量、多样性和创造力方面受到限制,因此阻碍了调整模型的通用性。基于上述背景,作者提出了Self-instruct框架,一个通过......
  • 使用AI聊天模型写作和编码心得
    合集地址给大家推荐一个国内暂时免费使用AI聊天模型的网站:ChatAnywhere有需要的朋友可以点击试用一下。写文档要点详细描述要干的事情说清楚你的需求,例如:可以使用序号列出所有需求,让AI模型来梳理逻辑对描述不清楚的带你让模型进一步解释时,需要把最初的问题再说清楚,避免断连逐级扩散......