首页 > 其他分享 >泰坦尼克号数据R语言

泰坦尼克号数据R语言

时间:2023-07-25 15:07:19浏览次数:30  
标签:泰坦尼克号 语言 乘客 生存率 titanic Survived 数据 fill

泰坦尼克号数据分析与可视化

引言

泰坦尼克号是一艘著名的英国轮船,也是历史上最著名的沉船之一。自从1912年沉没以来,它一直吸引着人们的注意。泰坦尼克号数据集是一个广泛使用的数据集,用于分析和预测泰坦尼克号乘客的生存情况。本文将介绍如何使用R语言对泰坦尼克号数据进行分析和可视化。

数据集介绍

泰坦尼克号数据集包含了泰坦尼克号上每位乘客的个人信息和是否生还的标签。数据集包括乘客的性别、年龄、船舱等级、票价等信息。这些信息可以用于分析泰坦尼克号上的乘客生存情况与不同特征的关系。

数据分析

首先,我们需要导入所需的包和数据集。

# 导入所需的包
library(titanic)  # 导入titanic包
library(dplyr)    # 导入dplyr包
library(ggplot2)  # 导入ggplot2包

# 导入泰坦尼克号数据集
data("titanic_train")

接下来,我们可以先观察一下数据集的结构和前几行数据。

# 观察数据集结构
str(titanic_train)

# 查看前几行数据
head(titanic_train)

数据集中的每一列代表一个特征,例如"Survived"表示是否生还,"Pclass"表示船舱等级,"Sex"表示性别等。我们可以通过可视化来探索这些特征与生存率之间的关系。

# 生存率与船舱等级的关系
ggplot(titanic_train, aes(x = Pclass, fill = factor(Survived))) +
  geom_bar(position = "fill") +
  scale_fill_manual(values = c("#FF0000", "#00FF00"), labels = c("No", "Yes")) +
  labs(x = "Pclass", y = "Survival Rate", fill = "Survived")

# 生存率与性别的关系
ggplot(titanic_train, aes(x = Sex, fill = factor(Survived))) +
  geom_bar(position = "fill") +
  scale_fill_manual(values = c("#FF0000", "#00FF00"), labels = c("No", "Yes")) +
  labs(x = "Sex", y = "Survival Rate", fill = "Survived")

上述代码使用ggplot2包绘制了两个柱状图,分别显示了船舱等级和性别与生存率之间的关系。通过观察图表可以发现,船舱等级和性别都对乘客的生存率有一定的影响。

除了船舱等级和性别,年龄也是一个重要的特征。我们可以通过箱线图来观察不同年龄段的乘客的生存情况。

# 年龄与生存率的关系
ggplot(titanic_train, aes(x = factor(Survived), y = Age)) +
  geom_boxplot(fill = "#FF0000") +
  labs(x = "Survived", y = "Age")

上述代码使用ggplot2包绘制了一个箱线图,展示了生存与否和年龄之间的关系。通过观察图表可以发现,年龄在生存率中起到了一定的作用,年龄较小的乘客更容易生还。

结论

通过对泰坦尼克号数据的分析和可视化,我们可以得出以下结论:

  1. 船舱等级和性别对乘客的生存率有一定的影响,一等舱的乘客和女性乘客更容易生还。
  2. 年龄也对乘客的生存率有一定的影响,年龄较小的乘客更容易生还。

这些结论有

标签:泰坦尼克号,语言,乘客,生存率,titanic,Survived,数据,fill
From: https://blog.51cto.com/u_16175435/6845402

相关文章

  • 如何构造类似数组的数据结构?
    ..介绍在开始解决数组问题之前,理解并实现类似数组的数据结构是一个很好的实践。本课教您如何实现常见的数组操作,例如插入元素、删除元素、获取元素、求数组长度以及打印数组元素。我们正在建设什么?我们将从头开始构建一个数组,其中包含一些最常见的数组操作,如上所述。我们还将学习如......
  • 数据库tinyint映射成java
    实现数据库tinyint映射成Java的方法概述在数据库中,我们常常会使用tinyint类型来表示布尔值或者枚举类型。在Java中,我们通常使用boolean或者枚举类型来表示这些值。因此,我们需要一种方法将数据库中的tinyint类型映射成Java中的对应类型。在这篇文章中,我将向你介绍如何实现这一过程......
  • 数据可视化组件封装
    数据可视化组件封装指南介绍数据可视化在现代应用程序开发中扮演着重要的角色。通过将数据以可视化的方式展示出来,我们可以更好地理解和分析数据。为了方便重复使用和维护,我们需要将数据可视化组件进行封装。在本文中,我将向你介绍数据可视化组件封装的流程和具体步骤。流程概述......
  • 数据可视化主要模块有哪些
    数据可视化主要模块有哪些在数据分析和数据科学领域中,数据可视化是一种非常重要的工具。它能够帮助我们更好地理解数据,并将复杂的数据转化为可视化图形,使得我们能够更直观地发现数据中的规律和趋势。在Python中,有许多数据可视化的库和模块可供选择。本文将介绍一些主要的数据可视......
  • 数据仓库hive的工作原理
    数据仓库Hive的工作原理数据仓库是一个用于存储和管理大数据的系统,而Hive是一款基于Hadoop的数据仓库工具。本文将介绍Hive的工作原理,并通过代码示例来说明其应用。Hive的基本原理Hive是基于Hadoop的一个数据仓库工具,它允许用户使用类似于SQL的语言(HQL)来查询和分析大规模的数......
  • 2023年Q2京东小家电市场数据分析(京东数据运营)
    伴随人们对生活品质追求的提高,以及拥有新兴消费理念的年轻人逐渐成为消费主力,功能新潮、外观精致的小家电经常在电商平台销售榜单里“榜上有名”。本期我们便一起来分析Q2京东小家电市场中,一些较为热门的精致生活小电的行业大盘变动情况。*咖啡机延续市场红利持续增长,海外品牌占主......
  • Go语言中的iface和eface
    iface和eface是Go语言中用于实现接口的两种内部数据结构。它们都用于在运行时表示接口值,但它们在处理不同类型的接口上有不同的用途和区别。iface(interfacevalue):iface是用于表示具有非空接口值的数据结构。iface结构包含两个字段:一个指向实际值的指针和一个指向类型......
  • 工业物联网网关让PLC数据手机端监控和报警更加简单
    在传统的工厂管理中,我们想要看到现场设备的实时数据,必须在控制室内通过工控机、电脑、触摸屏等这些上位机设备才能看到,同理PLC维护也需要工程师在现场进行编程调试工作,非常不方便。随着工业物联网的发展,作为设备厂家需要提供远程监控和调试方案给到工业用户,需要对设备运行数据远程......
  • Mysql联合索引是如何找到数据的
    比较简单的是单列索引(b+tree)。遇到多条件查询时,不可避免会使用到多列索引。联合索引又叫复合索引。b+tree结构如下:每一个磁盘块在mysql中是一个页,页大小是固定的,mysqlinnodb的默认的页大小是16k,每个索引会分配在页上的数量是由字段的大小决定。当字段值的长度越长,每一页上的数......
  • HTTP代理爬虫在大数据分析中的崭新应用
    HTTP代理爬虫在大数据分析中的崭新应用作为一家专业的HTTP代理产品供应商,我们深知HTTP代理爬虫在大数据分析中的重要性和价值。在这个领域中,HTTP代理爬虫不仅帮助企业高效地获取数据,还可以为数据分析提供强有力的支持,让您的业务在大数据时代脱颖而出。HTTP代理爬虫是一种通过使用HT......