本届亚太杯中文赛项已经结束,本文分享我的解决思路。
摘 要
洪水的频率和严重程度与人口增长趋势相近。迅猛的人口增长,扩大耕地,围湖造田,乱砍滥伐等人为破坏不断地改变着地表状态,改变了汇流条件,加剧了洪灾程度。2023 年,全球洪水造成了数十亿美元的经济损失。因此构建与研究洪水事件预测发生模型显得尤为重要,本文基于机器学习回归,通过对比分析,构建了预测效果较好的洪水概率预测模型,为灾害防治起到一定贡献作用。
针对问题一:为了分析各个指标与洪水发生的关联,本文通过计算皮尔逊相关系数,得出与洪水发生相关性较高的指标为森林砍伐、滑坡、气候变化、人口得分、淤积、河流管理、地形排水、大坝质量、基础设施恶化,较低的指标为:季风强度、海岸脆弱性、侵蚀、排水系统、规划不足、城市化、流域、政策因素、无效防灾、农业实践、湿地损失,并绘制热力系数图与柱状图以可视化相关性分析结果。
针对问题二:为了聚类高中低风险的洪水事件指标特征,本文使用K聚类分析,首先将洪水概率聚类成三个不同类别,得到对应临界值分别为0.725、0.505、0.285。然后使用CRITIC权重分析法计算得出各权重,最后选择了相关性较大的九个指标构建了有序逻辑回归模型,并利用准确率、召回率等指标进行了该模型的灵敏度分析,得到模型的准确率为0.785,模型构建良好,预警模型具有现实意义。
针对问题三:本问与问题二的指标选举选取处理方法类似,其主要区别在于多种模型的对比。通过第二问有序逻辑回归模型的OR值进行分析,剔除两个对结果贡献度较小的指标,利用河流管理、气候变化、淤积、基础设施恶化、人口得分这五个指标,构建了线性回归(ols)、线性回归(梯度下降法)、梯度提升树三个模型并对比各模型指标,选择构建了更优的梯度提升树模型。
针对问题四:基于问题三构建的模型,利用预测附件的数据,预测了74万件洪水发生概率的直方图和折线图,并利用S-W检验按与K-S检验,验证了预测结果较好的服从正态分布。
关键词:皮尔逊相关系数 CRITIC权重分析 K聚类分析 有序逻辑回归 梯度提升树
不难看出我使用的模型其实是比较基础,比较大众化的模型。事实上看了很多获奖的优秀论文,也只有极少数论文会对模型算法有所创新,基本的思路是组合模型,而不是创新模型,比较起模型的高级化和创新化我认为最重要的是模型的适用性和文章的写作逻辑
标签:指标,预测,亚太,洪水,模型,建模,2024,构建,回归 From: https://blog.csdn.net/2301_76356125/article/details/141170710