泰坦尼克号数据分析与可视化
引言
泰坦尼克号是一艘著名的英国轮船,也是历史上最著名的沉船之一。自从1912年沉没以来,它一直吸引着人们的注意。泰坦尼克号数据集是一个广泛使用的数据集,用于分析和预测泰坦尼克号乘客的生存情况。本文将介绍如何使用R语言对泰坦尼克号数据进行分析和可视化。
数据集介绍
泰坦尼克号数据集包含了泰坦尼克号上每位乘客的个人信息和是否生还的标签。数据集包括乘客的性别、年龄、船舱等级、票价等信息。这些信息可以用于分析泰坦尼克号上的乘客生存情况与不同特征的关系。
数据分析
首先,我们需要导入所需的包和数据集。
# 导入所需的包
library(titanic) # 导入titanic包
library(dplyr) # 导入dplyr包
library(ggplot2) # 导入ggplot2包
# 导入泰坦尼克号数据集
data("titanic_train")
接下来,我们可以先观察一下数据集的结构和前几行数据。
# 观察数据集结构
str(titanic_train)
# 查看前几行数据
head(titanic_train)
数据集中的每一列代表一个特征,例如"Survived"表示是否生还,"Pclass"表示船舱等级,"Sex"表示性别等。我们可以通过可视化来探索这些特征与生存率之间的关系。
# 生存率与船舱等级的关系
ggplot(titanic_train, aes(x = Pclass, fill = factor(Survived))) +
geom_bar(position = "fill") +
scale_fill_manual(values = c("#FF0000", "#00FF00"), labels = c("No", "Yes")) +
labs(x = "Pclass", y = "Survival Rate", fill = "Survived")
# 生存率与性别的关系
ggplot(titanic_train, aes(x = Sex, fill = factor(Survived))) +
geom_bar(position = "fill") +
scale_fill_manual(values = c("#FF0000", "#00FF00"), labels = c("No", "Yes")) +
labs(x = "Sex", y = "Survival Rate", fill = "Survived")
上述代码使用ggplot2包绘制了两个柱状图,分别显示了船舱等级和性别与生存率之间的关系。通过观察图表可以发现,船舱等级和性别都对乘客的生存率有一定的影响。
除了船舱等级和性别,年龄也是一个重要的特征。我们可以通过箱线图来观察不同年龄段的乘客的生存情况。
# 年龄与生存率的关系
ggplot(titanic_train, aes(x = factor(Survived), y = Age)) +
geom_boxplot(fill = "#FF0000") +
labs(x = "Survived", y = "Age")
上述代码使用ggplot2包绘制了一个箱线图,展示了生存与否和年龄之间的关系。通过观察图表可以发现,年龄在生存率中起到了一定的作用,年龄较小的乘客更容易生还。
结论
通过对泰坦尼克号数据的分析和可视化,我们可以得出以下结论:
- 船舱等级和性别对乘客的生存率有一定的影响,一等舱的乘客和女性乘客更容易生还。
- 年龄也对乘客的生存率有一定的影响,年龄较小的乘客更容易生还。
这些结论有
标签:泰坦尼克号,语言,乘客,生存率,titanic,Survived,数据,fill From: https://blog.51cto.com/u_16175435/6845402