首页 > 其他分享 >R语言极值分析:GEV与GPD模型与MCMC的海洋观测数据极值模拟可视化研究

R语言极值分析:GEV与GPD模型与MCMC的海洋观测数据极值模拟可视化研究

时间:2024-07-16 20:53:37浏览次数:12  
标签:MCMC GEV GPD 模型 极端 拟合 数据 极值

全文链接:https://tecdat.cn/?p=37007

原文出处:拓端数据部落公众号

在海洋科学领域,极端天气和海洋事件如极端海浪、风暴潮和海啸等,对沿海社区、基础设施及生态环境构成了重大威胁。准确预测和评估这些极端事件的强度和频率,对于制定有效的防灾减灾策略至关重要。极值分析作为统计学的一个重要分支,专门用于处理和分析极端值的出现规律,近年来在海洋观测数据的处理中得到了广泛应用。

GEV分布是一个包含三种基本极值分布(Gumbel、Fréchet和Weibull)的通用框架,能够适用于广泛的极值数据场景。而GPD分布则在阈值超量建模中表现出色,特别适用于超过某一特定阈值的极值数据分析。结合这两种模型,研究人员可以更全面地理解和模拟海洋观测数据中的极值行为。

此外,马尔可夫链蒙特卡洛(Markov Chain Monte Carlo, MCMC)方法作为一种强大的统计模拟技术,在复杂分布的参数估计和预测中发挥着重要作用。将MCMC与GEV或GPD模型相结合,不仅可以提高参数估计的精度,还能够生成符合特定分布规律的模拟数据,为海洋极值事件的情景分析和风险评估提供有力支持。

本文旨在帮助客户探讨R语言环境下,实现GEV与GPD模型结合MCMC方法在海洋观测数据极值模拟可视化研究中的应用课题研究。通过具体案例,展示如何构建这些模型,进行参数估计,并利用MCMC方法进行模拟数据生成和可视化分析。本文的研究不仅有助于深入理解海洋极值事件的统计规律,还为海洋灾害的预警和应对提供了科学依据和技术支持。

数据清理与统计分析

在本文中,我们首先对一组海洋观测数据进行了预处理,随后进行了基本的统计分析和可视化展示。这些数据包含了不同时间点的海浪高度(Hs)、最大海浪高度(Hmax)、水温(SST)以及其他海洋环境参数,如潮汐(Tz)、波峰周期(Tp)和波峰方向(Dir_Tp.TRUE)。数据的时间跨度为1996年11月21日的多个时间点,每行数据代表一个观测点。

在这里插入图片描述

数据预处理

为了确保数据分析的准确性和可靠性,我们首先对数据进行了清理,移除了任何可能存在的缺失值。在R语言中,使用na.omit()函数可以轻松实现这一步骤,该函数能够自动删除包含NA值的行。

 
  data <- na.omit(data)  

  
  summary_stats <- c("Mean", "Median", "Sd")
  data_summary <- sapply(data[, c("Hs")], function(x) summary(x)[summary_stats])
  data_summary

可视化分析

为了进一步直观展示海浪高度的分布情况,我们采用了箱线图和直方图两种可视化方法。

箱线图

箱线图是一种用于展示数据分布情况的图表,它能够清晰地显示数据的四分位数、中位数以及异常值。在本例中,我们绘制了Hs的箱线图,并通过设置outlier.shape = NA来隐藏异常值的标记,使图表更加简洁。在这里插入图片描述

直方图

直方图则是另一种常用的数据分布展示方式,它通过条形图的形式展示了数据的频数分布。在本例中,我们设置了30个分组来绘制Hs的直方图,并通过设置颜色和填充样式来增强图表的可读性。

在这里插入图片描述

通过上述分析和可视化展示,我们可以对海浪高度(Hs)的分布情况有一个较为全面的了解,为后续的研究和预测提供了有力的数据支持。

GPD-MCMC模型在极端海浪高度分析中的应用

在本文中,我们利用广义帕累托分布(Generalized Pareto Distribution, GPD)模型对极端海浪高度数据(Hs)进行了详细的分析与拟合。GPD模型因其能够灵活捕捉极端值分布的特性,在极端事件统计分析中得到了广泛应用。

模型拟合

首先,我们使用fevd函数从extRemes或类似R包中拟合GPD模型至海浪高度数据(Hs)。在拟合过程中,我们指定了类型为"GP"(即广义帕累托分布),并设置了阈值(threshold)为6,以筛选出极端海浪高度数据进行专门分析。

模型诊断与可视化

为了评估GPD模型的拟合效果,我们进行了多个诊断步骤和可视化展示。通过distill函数,我们提取了模型的关键统计信息,以便进一步分析。

在这里插入图片描述

接着,我们使用mrlplot函数绘制了超出量均值剩余寿命(Mean Residual Life, MRL)图,以检查数据是否满足GPD模型的假设。通过设定xlim参数,我们专注于海浪高度在0到12米范围内的分析。

在这里插入图片描述

置信区间与极值预测

为了评估模型参数的不确定性,我们计算了参数的置信区间(CI)。这有助于我们理解模型估计的稳健性。
在这里插入图片描述
进一步地,我们利用ci函数预测了不同重现期(return period)下的极端海浪高度及其置信区间。这对于海洋工程设计和风险评估尤为重要。

阈值敏感性分析

为了探究阈值选择对模型结果的影响,我们进行了阈值范围分析。通过threshrange.plot函数,我们绘制了不同阈值下的模型拟合效果,并特别关注了阈值在-75.5到-68.5范围内(注意:这里假设的阈值范围可能基于特定数据集或分析需求,实际应用时需根据数据特性调整)的变化情况,采用“PP”(Pickands Plot)类型进行展示。

在这里插入图片描述

MCMC 采样

我们开发了MCMC采样函数,通过提议分布(如正态分布)生成新的参数候选值,并根据Metropolis-Hastings算法接受或拒绝这些候选值。对数似然函数用于计算候选值和当前值的接受概率。

我们使用R语言实现了GPD的对数似然函数、提议分布和MCMC采样函数。具体实现细节已在前文给出。

# 定义 GPD 的概率密度函数
  gpd_pdf <- function(x, shape, scale) {
    if (shape == 0) {
      return(exp(-x / scale) / scale)
    } else {
      return((1 + shape * x / scale)^(-1 - 1 / shape) * shape / scale)
    }
  }
  
  # 定义提议分布(这里使用正态分布)
  proposal_dist <- function(theta, var) {
    return(rnorm(length(theta), theta, var))
  }
  
  # MCMC 采样函数
  mcmc_sample <- function(log_likelihood, initial_theta, data, n_iter, var) {
    theta <- initial_theta

接下来,我们分别为形状参数和尺度参数绘制直方图和密度曲线,以便更直观地了解它们的分布特性。
在这里插入图片描述

广义极值分布(GEV)在极端海况分析中的应用

在本研究中,我们采用了广义极值分布(Generalized Extreme Value, GEV)模型来拟合和分析极端海况数据,特别是针对显著波高(Hs)数据集的极端值进行建模。GEV分布因其能够灵活捕捉极端事件分布特性而被广泛应用于气候科学和工程领域。

数据拟合与模型评估

首先,我们使用fevd函数从extRemes或类似包中,以GEV分布类型对显著波高数据集data$Hs进行了拟合,设定阈值为6,以排除非极端值的影响。

随后,我们输出了拟合结果以查看模型参数:

在这里插入图片描述

为了进一步简化和解读模型结果,我们使用distill函数提取了关键的模型摘要信息:

在这里插入图片描述

为了直观地展示GEV模型的拟合效果,我们绘制了拟合结果的图形,包括拟合曲线和原始数据的散点图:

在这里插入图片描述

此外,我们还通过函数绘制了边际剩余寿命(Marginal Return Level, MRL)图,以分析不同阈值下的极端值分布特性,特别设定了x轴的范围为0到7米:

模型诊断与有效性验证

为了验证模型的拟合质量,我们进一步绘制了拟合过程的“trace”图,该图提供了模型迭代过程中的收敛性和稳定性信息:

极端重现水平分析

基于拟合的GEV模型,我们计算了不同重现期(2年、20年和100年)下的有效重现水平(Effective Return Level, ERL)及其95%置信区间(CI)。这些信息对于评估极端海况的潜在风险和制定相应的防护措施至关重要:

在这里插入图片描述
在这里插入图片描述

多项式逼近方法在显著波高数据分析中的应用

我们采用多项式逼近方法(Polynomial Approximation Method)对显著波高(Hs)数据进行了建模与分析。多项式模型因其灵活性高,能够较好地捕捉数据中的非线性趋势,被广泛应用于数据拟合领域。

多项式模型构建

首先,我们定义了自变量x为数据集的行索引,从1到nrow(data),以便将时间序列或顺序数据映射到多项式模型中。随后,我们使用线性模型(lm)函数,将显著波高(data$Hs)作为因变量,对x进行6次多项式变换后的自变量进行拟合,构建模型如下:

在这里插入图片描述

通过summary(model),我们获得了模型的详细统计摘要,包括系数估计、标准误、t值和p值等,这些信息有助于评估模型的拟合效果和各个多项式项的显著性。

预测与置信区间

为了评估模型预测的准确性,我们计算了预测值及其99%置信区间。

随后,我们绘制了观测数据点,并计划(但未直接执行)将预测曲线及其置信区间叠加到图上,以便直观地比较模型预测与观测数据之间的差异。

在这里插入图片描述

极端值分布探索

为了进一步研究显著波高数据的极端值分布特性,我们引入了极值理论(EVT)中的几种工具,特别是与广义极值分布(GEV)相关的函数。

综上所述,本文通过多项式逼近方法和极值理论对显著波高数据进行了全面的分析与探索,为相关领域的研究提供了有益的参考。

 

标签:MCMC,GEV,GPD,模型,极端,拟合,数据,极值
From: https://www.cnblogs.com/tecdat/p/18306082

相关文章

  • 极值理论 EVT、POT超阈值、GARCH 模型分析股票指数VaR、条件CVaR:多元化投资组合预测风
    全文链接:http://tecdat.cn/?p=24182最近我们被客户要求撰写关于极值理论的研究报告,包括一些图形和统计输出。本文用R编程语言极值理论(EVT)以确定10只股票指数的风险价值(和条件VaR)使用Anderson-Darling检验对10只股票的组合数据进行正态性检验,并使用BlockMaxima......
  • android7.0以上调用系统相机拍照并显示到ImageView上
     /**第一步:新建文件res/xml/file_paths.xml<pathsxmlns:android="http://schemas.android.com/apk/res/android"><external-pathpath="."name="camera_photos"/></paths>*第二步:AndroidManifest.xml文件的a......
  • Matlab马尔可夫链蒙特卡罗法(MCMC)估计随机波动率(SV,Stochastic Volatility) 模型|附代码
    全文下载链接:http://tecdat.cn/?p=16708最近我们被客户要求撰写关于随机波动率的研究报告,包括一些图形和统计输出。波动率是一个重要的概念,在金融和交易中有许多应用。它是期权定价的基础。波动率还可以让您确定资产配置并计算投资组合的风险价值(VaR)甚至波动率本身也是一种......
  • R语言的极值统计学及其在相关领域中的实践技术应用
    受到气候变化、温室效应以及人类活动等因素的影响,自然界中极端高温、极端环境污染、大洪水和大暴雨等现象的发生日益频繁;在人类社会中,股市崩溃、金融危机等极端情况也时有发生;今年的新冠疫情就是非常典型的极端现象。研究此类极端现象需要新的统计学方法,该类统计学的理论和方法......
  • View->可拖拽滑动的ImageView + Fling惯性滑动效果 + 回弹效果
    XML文件<?xmlversion="1.0"encoding="utf-8"?><LinearLayoutxmlns:android="http://schemas.android.com/apk/res/android"android:layout_width="match_parent"android:layout_height="match_parent&quo......
  • §4. 泰勒公式与极值问题
    掌握二元函数高阶偏导数的求法,以及二元函数的中值定理和泰勒公式。若混合偏导数连续,则相等。利用泰勒公式进行近似计算。掌握二元函数极值的充分和必要条件,以及求法。掌握例11中最小二乘法。难点:复合函数的高阶偏导数的计算。极值点与稳定点和最值点的关系。重点习题:例1、例3、......
  • 信号量(Semaphore),事件Event(了解),队列补充,进程池和线程池(重点),协程理论,Greenlet,Gevent模
    Ⅰ信号量(Semaphore)【一】什么是信号量信号量Semahpore(同线程一样)互斥锁:允许在同一时刻只能有一个线程或进程同资源进行修改信号量:允许指定数量的进程或线程对资源进行修改【二】例子比如厕所有3个坑,那最多只允许3个人上厕所,后面的人只能等里面有人出来了才能再进去......
  • 粒子群算法及蜂群算法求多维函数极值对比
    1.粒子群算法    1.1粒子群算法简单介绍    粒子群优化算法源于对鸟群活动的研究。20世纪70年代许多学者对鸟群的群体性活动进行了深入研究。生物学家Reynolds提出了Boids模型,用来模拟鸟群聚集飞行的行为。在这个模型中每个个体都遵守三条规则:避免碰......
  • 极值原理
    MaximumprincipleinthebookgeometricanalysisThroughoutthebook,thereisfrequentuseofthemaximumprinciple,butsometimesitdoesn’tseemdirectlyapplicable,andthebookdoesnotprovideanexplanation.Thistroubledmeforsometime,butnow......
  • Python随机波动性SV模型:贝叶斯推断马尔可夫链蒙特卡洛MCMC分析英镑/美元汇率时间序列
    全文链接:https://tecdat.cn/?p=33885原文出处:拓端数据部落公众号本文描述了帮助客户使用马尔可夫链蒙特卡洛(MCMC)方法通过贝叶斯方法估计基本的单变量随机波动模型,就像Kim等人(1998年)所做的那样。定义模型以及从条件后验中抽取样本的函数的代码也在Python脚本中提供。  ......