首页 > 其他分享 >基于spark的大数据分析预测地震受灾情况的系统设计

基于spark的大数据分析预测地震受灾情况的系统设计

时间:2024-03-27 16:02:12浏览次数:27  
标签:数据分析 grade damage var 受灾 spark data final Math

基于spark的大数据分析预测地震受灾情况的系统设计

在本篇博客中,我们将介绍如何使用Apache Spark框架进行地震受灾情况的预测。我们将结合数据分析、特征工程、模型训练和评估等步骤,最终建立一个预测模型来预测地震造成的破坏程度,同时使用可视化大屏的方式展示数据的分布。

1、数据来源和准备

我们使用了合并后的地震数据作为我们的数据集。首先,让我们来看一下我们的数据集

# 读取数据
data = spark.read.csv("../data_ana/merged_data.csv", header=True, inferSchema=True).sample(False, 0.1, seed=42)

data.show()

在这里插入图片描述

2、数据预处理和特征工程

在数据预处理和特征工程阶段,我们将对数据进行清洗、转换和特征提取等操作。具体步骤如下:

# 数据预处理和特征工程
string_cols = ['gender_individual', 'presence_in_household', 'disability_individual',
               'education_level_individual','marital_status_individual', 'legal_ownership_status',
               'land_surface_condition', 'foundation_type','roof_type', 'ground_floor_type',
               'other_floor_type', 'position', 'plan_configuration','condition_post_eq',
               'damage_grade_x', 'technical_solution_proposed_x', 'area_assesed',
               'technical_solution_proposed_y','vdcmun_name', 'district_name']

# 创建 StringIndexer 和 OneHotEncoder 对象
indexers = [StringIndexer(inputCol=column, outputCol=column+"_index",handleInvalid="skip") for column in string_cols]
encoder = OneHotEncoder(inputCols=[column+"_index" for column in string_cols],
                        outputCols=[column+"_encoded" for column in string_cols])

# 创建特征向量
assembler = VectorAssembler(inputCols=encoder.getOutputCols(), outputCol="features")

# 创建Pipeline
pipeline = Pipeline(stages=indexers + [encoder, assembler])
data_final = pipeline.fit(data).transform(data)

data_final.show()

在这里插入图片描述

3、异常数据处理

在异常数据处理阶段,我们将处理可能存在的异常情况,确保数据的完整性和准确性:

# 使用正则表达式提取数字部分
data_final = data_final.withColumn("damage_grade_y_numeric", regexp_extract(data_final["damage_grade_y"], r'\d+', 0))

# 将列转换为 numeric 类型
data_final = data_final.withColumn("damage_grade_y_numeric", data_final["damage_grade_y_numeric"].cast("int"))

# 显示转换后的结果
data_final.select("damage_grade_y", "damage_grade_y_numeric").show()

在这里插入图片描述

4、标题模型训练和评估

在模型训练和评估阶段,我们将使用随机森林分类器进行模型训练,并评估模型在测试集上的表现:

# 划分数据集为训练集和测试集
(train_data, test_data) = data_final.randomSplit([0.8, 0.2], seed=1234)

# 初始化随机森林分类器
rf = RandomForestClassifier(labelCol="damage_grade_y_numeric", featuresCol="features", numTrees=10)

# 训练模型
model = rf.fit(train_data)

# 在测试集上进行预测
predictions = model.transform(test_data)

# 模型评估
evaluator = MulticlassClassificationEvaluator(labelCol="damage_grade_y_numeric", predictionCol="prediction", metricName="accuracy")
accuracy = evaluator.evaluate(predictions)

print("Test Accuracy = {:.2f}%".format(accuracy * 100))

在这里插入图片描述

标题5、可视化大屏实现与展示

为了更直观地展示预测结果,我们设计了一个可视化大屏。该大屏将包括地图展示、受灾情况分布图以及预测结果展示等内容,以帮助用户更好地理解地震造成的破坏程度。

<html><head>
<meta charset="utf-8">
<title>www.husonghe.com</title>
<style>
html {
     
  height: 100%;
  background-image: -webkit-radial-gradient(ellipse farthest-corner at center center, #1b44e4 0%, #020f3a 100%);
  background-image: radial-gradient(ellipse farthest-corner at center center, #1b44e4 0%, #020f3a 100%);
  cursor: move;
}

body {
     
  width: 100%;
  margin: 0;
  overflow: hidden;
}
</style>
</head>

<body>


<canvas id="canv" width="1920" height="572"></canvas>
<script>
var num = 200;
var w = window.innerWidth;
var h = window.innerHeight;
var max = 100;
var _x = 0;
var _y = 0;
var _z = 150;
var dtr = function(d) {
     
  return d * Math.PI / 180;
};

var rnd = function() {
     
  return Math.sin(Math.floor(Math.random() * 360) * Math.PI / 180);
};
var dist = function(p1, p2, p3) {
     
  return Math.sqrt(Math.pow(p2.x - p1.x, 2) + Math.pow(p2.y - p1.y, 

标签:数据分析,grade,damage,var,受灾,spark,data,final,Math
From: https://blog.csdn.net/lhyandlwl/article/details/137018770

相关文章

  • Spark基础必会知识总结
    1、RDD是什么,RDD的五大属性RDD是弹性分布式数据集五大属性:分区(指定数据是哪个分区的)分区内的计算逻辑分区器(如果有键值对可以控制分区的数据流向)血缘关系移动数据不如移动计算2、RDD的弹性体现在哪里存储弹性:内存磁盘一起用计算弹性:重试机制分片弹性:分区可以改变容......
  • Spark SQL— Catalyst 优化器
    SparkSQL—Catalyst优化器1.目的本文的目标是描述SparkSQL优化框架以及它如何允许开发人员用很少的代码行表达复杂的查询转换。我们还将描述SparkSQL如何通过大幅提高其查询优化能力来提高查询的执行时间。在本教程中,我们还将介绍什么是优化、为什么使用Catalyst......
  • 石家庄铁道大学2024年春季 2020 级课堂测试试卷—数据分析练习
    石家庄铁道大学2024年春季  2020级课堂测试试卷—数据分析练习课程名称: 大数据库技术与应用  任课教师:王建民  考试时间: 实现为止 分钟  一、 原始数据: 二、 地域维度标准化:地域属性在科技成果分析中作为一个重要维度,其标准取值非常必要,目前我国采用的标......
  • Spark 编程
     1、数据准备people.json{"id":1,"name":"张三","age":38}{"id":2,"name":"李四","age":30}{"id":3,"name":"王五","age":28......
  • 【前端素材】推荐5种优质大数据分析展示页面网站设计(16)(附源码)
    一、需求分析1、功能分析大数据分析展示页面是一个用于呈现和分析大数据的平台界面,旨在帮助用户更直观、更高效地理解和利用数据。该页面通常结合了数据分析、可视化技术以及用户交互设计,以提供丰富的数据展示和分析功能。大数据分析展示页面是大数据分析过程中至关重要的一......
  • 【前端素材】推荐5种优质大数据分析展示页面网站设计(18)(附源码)
    一、需求分析1、功能分析大数据分析展示页面是一个用于呈现和分析大数据的平台界面,旨在帮助用户更直观、更高效地理解和利用数据。该页面通常结合了数据分析、可视化技术以及用户交互设计,以提供丰富的数据展示和分析功能。大数据分析展示页面是大数据分析过程中至关重要的一......
  • spark-submit 主要参数详细说明及Standalone集群最佳实践
    文章目录1.前言2.参数说明3.Standalone集群最佳实践1.前言部署提交应用到spark集群,可能会用到spark-submit工具,鉴于网上的博客质量残差不齐,且有很多完全是无效且错误的配置,没有搞明白诸如--total-executor-cores、--executor-cores、--num-executors的关系......
  • 深入浅出数据分析-CH13整理数据-R语言/EXCEL
    EXCEL原始数据,本文章附件,下面介绍两种处理方式:EXCEL&R 一、EXCEL清洗数据格式点分列的第一个分列 填入其他一个#,点击下一步完成 分列后的表格如图 按下ctrl+F,点击替换全部  此时此刻处理完成FirstName,开始处理LastName选中C列 CTRL+F,输入(*),点击全部替......
  • hive 、spark 、flink之想一想
    hive1:hive是怎么产生的?2:hive的框架是怎么样的?3:hive执行流程是什么?4:hivesql是如何把sql语句一步一步到最后执行的?5:hivesql任务常用参数调优做过什么?spark6:spark是怎么产生的?7:spark框架是怎么样的?8:spark的DAG是什么?9:spark中的app,job,stage,task是什么?有什么好处?......
  • 生信小白菜之GEO芯片数据分析流程--附画图代码
    title:“GEOdataanalysis”author:“yuluyang”date:“2024-03-22”生信技能树数据挖掘课程笔记~小洁老师授课主要内容:数据分组的内容关键词的分组和多分组比较idmap报错的原因及解决方法基因组的注释流程数据的行列互换及方差数值画图示例代码示例数据libr......