首页 > 其他分享 >【2022.12.28】kaggle上泰坦尼克号的实操(上)

【2022.12.28】kaggle上泰坦尼克号的实操(上)

时间:2022-12-29 15:57:32浏览次数:68  
标签:full pd Age 生存率 28 kaggle Survived TitleDict 2022.12

前言

经过一系列的学习,现在想入门kaggle上面的实操,多为模仿

参考链接:机器学习入门:Kaggle -titanic(泰坦尼克)生存预测

# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session



import warnings 
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
# 忽略部分版本警告
warnings.filterwarnings('ignore')
#设置sns样式
sns.set(style='white',context='notebook',palette='muted')
#导入数据
train=pd.read_csv('/kaggle/input/titanic/train.csv')
test=pd.read_csv('/kaggle/input/titanic/test.csv')

使用info可以了解到如下信息

train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  # 乘客ID
 1   Survived     891 non-null    int64  # 是否存活
 2   Pclass       891 non-null    int64  # 客舱等级(1/2/3等舱位)
 3   Name         891 non-null    object # 乘客姓名
 4   Sex          891 non-null    object # 性别
 5   Age          714 non-null    float64 # 年龄
 6   SibSp        891 non-null    int64  # 兄弟姐妹数/配偶数
 7   Parch        891 non-null    int64  # 父母数/子女数
 8   Ticket       891 non-null    object # 船票编号
 9   Fare         891 non-null    float64 # 船票价格
 10  Cabin        204 non-null    object # 客舱号
 11  Embarked     889 non-null    object # 登船港口
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB

其中可以看到,有一些年龄和客舱号是空缺的(不足891)

而在test.info()之中,可以看到只有11列,去掉了存活

seaborn画图

# 计算不同类型embarked的乘客,其生存率为多少
print('Embarked为"S"的乘客,其生存率为%.2f' % full['Survived'][full['Embarked'] == 'S'].value_counts(normalize=True)[1])
print('Embarked为"C"的乘客,其生存率为%.2f' % full['Survived'][full['Embarked'] == 'C'].value_counts(normalize=True)[1])
print('Embarked为"Q"的乘客,其生存率为%.2f' % full['Survived'][full['Embarked'] == 'Q'].value_counts(normalize=True)[1])

###
Embarked为"S"的乘客,其生存率为0.34
Embarked为"C"的乘客,其生存率为0.55
Embarked为"Q"的乘客,其生存率为0.39
###

sns.catplot分类型数据作坐标轴画图

sns.catplot('Pclass', col='Embarked', data=train, kind='count', height=3)

这句话的意思是 根据Pclass和Embarked分类表格,并统计Pclass的数据

image-20221228144145701

S是英国,C是法国,Q是新西兰

法国登船乘客生存率较高原因可能与其头等舱乘客比例较高有关。

sns.barplot柱状图

# Sex与Survived:女性的生存率远高于男性
sns.barplot(data=train, x='Sex', y='Survived')

image-20221228145004731

其中每个柱条的黑色的线条为误差线
误差线源于统计学,表示数据误差(或不确定性)范围,以更准确的方式呈现数据。误差线可以用标准差(standard deviation,SD)、标准误(standard error,SE)和置信区间表示,使用时可选用任意一种表示方法并作相应说明即可。当误差线比较“长”时,一般要么是数据离散程度大,要么是数据样本少。

sns.FacetGrid

ageFacet = sns.FacetGrid(train, hue='Survived', aspect=3)    # 创建坐标轴
ageFacet.map(sns.kdeplot, 'Age', shade=True)                 # 作图,选择图形类型
ageFacet.set(xlim=(0, train['Age'].max()))                   # 其他信息:坐标轴范围、标签等
ageFacet.add_legend()

Age与Survived:当乘客年龄段在0-10岁期间时生存率会较高。

image-20221228145614717

数据预处理

先对表格的缺失值进行处理

字符类处理

其中有两个人没有进站数据,经过绘图我们可以知道大部分人都是S站上船的

因此我们直接填入S

image-20221228151250504

因为cabin的数据量太少,因此将空缺的地方直接填入Unknown

full['Cabin']=full['Cabin'].fillna('Unknown')
full['Embarked']=full['Embarked'].fillna('S')

数值类处理

有一个人没有票价,因此填入平均值

full[full['Fare'].isnull()]
# 查询可知
#PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Parch	Ticket	Fare	Cabin	Embarked
#1043	1044	NaN	3	Storey, Mr. Thomas	male	60.5	0	0	3701	NaN	Unknown	S
# 利用3等舱,登船港口为英国,舱位未知旅客的平均票价来填充缺失值。
full['Fare']=full['Fare'].fillna( full[(full['Pclass']==3)&(full['Embarked']=='S')&(full['Cabin']=='Unknown')]['Fare'].mean())

而age没有填入数值,但是这个数据很大概率影响到存活率,这个放到下面的特征工程讲

特征工程

身份头衔特征

合并一些有相同特征的标签,“暴力更改”部分标签,在泰坦尼克的数据中,姓名头衔可以很好反应这一点。比如有的人是Dr,Mrs等

#构造新特征Title
full['Title']=full['Name'].map(lambda x:x.split(',')[1].split('.')[0].strip())
#查看title数据分布
full['Title'].value_counts()

新建新的特征Title,分割出逗号和句号之间的身份

image-20221228155923469

其中有的是头衔,有的并不是头衔,Capt这类就是船长啥的,因此我们要将一些特征合并在一起,可以采用上面的方法对数据进行修改,也可以采用词典的方法对结果进行整合

TitleDict={}
TitleDict['Mr']='Mr'
TitleDict['Mlle']='Miss'
TitleDict['Miss']='Miss'
TitleDict['Master']='Master'
TitleDict['Jonkheer']='Master'
TitleDict['Mme']='Mrs'
TitleDict['Ms']='Mrs'
TitleDict['Mrs']='Mrs'
TitleDict['Don']='Royalty'
TitleDict['Sir']='Royalty'
TitleDict['the Countess']='Royalty'
TitleDict['Dona']='Royalty'
TitleDict['Lady']='Royalty'
TitleDict['Capt']='Officer'
TitleDict['Col']='Officer'
TitleDict['Major']='Officer'
TitleDict['Dr']='Officer'
TitleDict['Rev']='Officer'
 
full['Title']=full['Title'].map(TitleDict)

再次使用value_counts()时,可以得到以下整合后的效果

image-20221228160434663

观察结果

# 观察新特征与标签之间的关系
sns.barplot(data=full,x='Title',y='Survived')
# 头衔为'Mr'及'Officer'的乘客,生存率明显较低。

image-20221228162534846

贵族和女士的生存率较高

家庭成员特征

拖家带口和独自一人的存活率可能会有差异,可以通过数据表体现出来

full['familyNum']=full['Parch']+full['SibSp']+1
# 查看familyNum与Survived
sns.barplot(data=full,x='familyNum',y='Survived')

image-20221228161606779

可以看出8,11人的家庭没有存活,4人口的存活率最高

可以将家庭分为小中大三类

# 按照家庭成员人数多少,将家庭规模分为“小、中、大”三类:
def familysize(familyNum):
    if familyNum==1:
        return 0
    elif (familyNum>=2)&(familyNum<=4):
        return 1
    else:
        return 2
 
full['familySize']=full['familyNum'].map(familysize)
full['familySize'].value_counts()
'''
0    790
1    437
2     82
Name: familySize, dtype: int64
'''
# 查看familySize与Survived
sns.barplot(data=full,x='familySize',y='Survived')
# 当家庭规模适中时,乘客的生存率更高。

image-20221228162036180

船舱类型特征

# Cabin字段的首字母代表客舱的类型
# 也反映不同乘客群体的特点,可能也与乘客的生存率相关。
#提取Cabin字段首字母
full['Deck']=full['Cabin'].map(lambda x:x[0])
#查看不同Deck类型乘客的生存率
sns.barplot(data=full,x='Deck',y='Survived')
# 当乘客的客舱类型为B/D/E时,生存率较高;当客舱类型为U/T时,生存率较低。
# Unknown的生存率较低

image-20221228163103493

共票号乘客特征

# 同一票号的乘客数量可能不同,可能也与乘客生存率有关系。
# 提取各票号的乘客数量
TickCountDict={}
TickCountDict=full['Ticket'].value_counts()
TickCountDict.head()
#将同票号乘客数量数据并入数据集中
full['TickCot']=full['Ticket'].map(TickCountDict)
full['TickCot'].value_counts()
# 查看TickCot与Survived之间关系
sns.barplot(data=full,x='TickCot',y='Survived')
# 当TickCot大小适中时,乘客生存率较高。

image-20221228165826445

#按照TickCot大小,将TickGroup分为三类。
def TickCountGroup(num):
    if (num==1):
        return 0
    elif (num>=2)&(num<=4):
        return 1
    else :
        return 2
#得到各位乘客TickGroup的类别
full['TickGroup']=full['TickCot'].map(TickCountGroup)
#查看TickGroup与Survived之间关系
sns.barplot(data=full,x='TickGroup',y='Survived')

image-20221228170835721

数值分析方法

One-hot编码

get_dummies方法可以用one-hot编码,将原来的值加在原来的分类之后,比如以下的demo

import pandas as pd
 
df = pd.DataFrame([
    ['green', 'A'],
    ['red', 'B'],
    ['blue', 'A']])
 
df.columns = ['color', 'class']
print(df)

'''
   color class
0  green     A
1    red     B
2   blue     A
'''

df=pd.get_dummies(df,columns=["color"])
print(df)
# 将color的值加在color后面,形成一项特征
'''
  class  color_blue  color_green  color_red
0     A           0            1          0
1     B           0            0          1
2     A           1            0          0
'''

image-20221229084006906

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)

参数说明

data : array-like, Series, or DataFrame
输入的数据
prefix : string, list of strings, or dict of strings, default None
get_dummies转换后,列名的前缀
columns : list-like, default None
指定需要实现类别转换的列名
dummy_na : bool, default False
增加一列表示空缺值,如果False就忽略空缺值
drop_first : bool, default False
获得k中的k-1个类别值,去除第一个

DataFrame

DataFrame这里参考了Pandas DataFrame入门教程(图解版) (biancheng.net)

corr()与热力图

这里参照了【Python-数据分析】相关关系(矩阵)的3种展示技巧:corr()-热力图-条形图 - 知乎 (zhihu.com)

预测数据

进行以上数据处理和特征工程后,数据变得很完整,就可以着手预测年龄了

相关系数

先用热力图看看,什么数据与年龄相关性较大

只能与数据进行比对,不能与字符串等比对,因此

plt.figure(figsize=(8,8))
sns.heatmap(full[['Age','Parch','Pclass','SibSp','Title','familyNum','TickCot','Fare']].corr(),cmap='BrBG',annot=True,
           linewidths=.5)
# 选用TickCot是不分类的原数据,而不是分类后的TickGroup,同理familyNum与familySize

可以得到如下热力图

image-20221229110107260

我们看age那一行/列,可以发现fare与age的相关性较大,但是在原博客之中没对fare进行相关系数处理,因此在这里先略过

以上热力图也可以通过下方代码进行筛选数据

#筛选数据集
AgePre=full[['Age','Parch','Pclass','SibSp','Title','familyNum','TickCot']]
#进行one-hot编码
AgePre=pd.get_dummies(AgePre)
ParAge=pd.get_dummies(AgePre['Parch'],prefix='Parch')
SibAge=pd.get_dummies(AgePre['SibSp'],prefix='SibSp')
PclAge=pd.get_dummies(AgePre['Pclass'],prefix='Pclass')
#查看变量间相关性
AgeCorrDf=pd.DataFrame()
AgeCorrDf=AgePre.corr()
AgeCorrDf['Age'].sort_values()

'''
Pclass          -0.408106
Title_Master    -0.385380
Title_Miss      -0.282977
SibSp           -0.243699
familyNum       -0.240229
TickCot         -0.185284
Parch           -0.150917
Title_Royalty    0.057337
Title_Officer    0.166771
Title_Mr         0.183965
Title_Mrs        0.215091
Age              1.000000
Name: Age, dtype: float64
'''
#拼接数据
AgePre=pd.concat([AgePre,ParAge,SibAge,PclAge],axis=1)
AgePre.head()

ParAge、SibAge、PclAge都是用onehot编码得到的,由此我们可以得到这么一个很长的column

image-20221229133652262

生成数据

#拆分实验集和预测集
AgeKnown=AgePre[AgePre['Age'].notnull()]
AgeUnKnown=AgePre[AgePre['Age'].isnull()]

#生成实验数据的特征和标签
AgeKnown_X=AgeKnown.drop(['Age'],axis=1)
AgeKnown_y=AgeKnown['Age']
#生成预测数据的特征
AgeUnKnown_X=AgeUnKnown.drop(['Age'],axis=1)

#利用随机森林构建模型
rfr=RandomForestRegressor(random_state=None,n_estimators=500,n_jobs=-1)
rfr.fit(AgeKnown_X,AgeKnown_y)

其中RandomForestRegressor的函数在sklearn.ensemble.RandomForestRegressor-scikit-learn中文社区

可以找到该部分的代码

fit部分的代码意义为fit(X, y[, sample_weight]) 从训练集(X, y)构建一个树的森林。

验证一下

full.info()
'''
Age一共有1046个notnull
5   Age          1046 non-null   float64
'''
AgeKnown.info()
'''
可以得到所有的行数都是1046
AgeKnown_X则是除了Age那一列以外的AgeKnown所有数据
AgeKnown_y是对应的只有Age那一列的数据
0       22.0
1       38.0
        ... 
1305    39.0
1306    38.5
Name: Age, Length: 1046, dtype: float64
'''

score的方法为score(X, y[, sample_weight]) 返回预测的决定系数R^2

利用模型进行预测并填入源数据集

#模型得分
rfr.score(AgeKnown_X,AgeKnown_y)
#预测年龄
AgeUnKnown_y=rfr.predict(AgeUnKnown_X)
#填充预测数据
full.loc[full['Age'].isnull(),['Age']]=AgeUnKnown_y
full.info()  #此时已无缺失值

同组识别

说实话并没看懂这部分为什么要这么做,那我先把源码照搬过来吧

原因

虽然通过分析数据已有特征与标签的关系可以构建有效的预测模型,但是部分具有明显共同特征的用户可能与整体模型逻辑并不一致。如果将这部分具有同组效应的用户识别出来并对其数据加以修正,就可以有效提高模型的准确率。在Titancic案例中,我们主要探究相同姓氏的乘客是否存在明显的同组效应。提取两部分数据,分别查看其“姓氏”是否存在同组效应。因为性别和年龄与乘客生存率关系最为密切,因此用这两个特征作为分类条件

12岁以上男性:找出男性中同姓氏均获救的部分

#提取乘客的姓氏及相应的乘客数
full['Surname']=full['Name'].map(lambda x:x.split(',')[0].strip())
SurNameDict={}
SurNameDict=full['Surname'].value_counts()
full['SurnameNum']=full['Surname'].map(SurNameDict)

#将数据分为两组
MaleDf=full[(full['Sex']=='male')&(full['Age']>12)&(full['familyNum']>=2)]
FemChildDf=full[((full['Sex']=='female')|(full['Age']<=12))&(full['familyNum']>=2)]
MSurNamDf=MaleDf['Survived'].groupby(MaleDf['Surname']).mean()
MSurNamDf.head()
MSurNamDf.value_counts()
'''
0.0    89
1.0    19
0.5     3
Name: Survived, dtype: int64
'''

大多数同姓氏的男性存在“同生共死”的特点,因此利用该同组效应,对生存率为1的姓氏里的男性数据进行修正,提升其预测为“可以幸存”的概率。

MSurNamDict={}
MSurNamDict=MSurNamDf[MSurNamDf.values==1].index
MSurNamDict
'''
Index(['Beane', 'Beckwith', 'Bishop', 'Cardeza', 'Chambers', 'Dick',
       'Duff Gordon', 'Frauenthal', 'Frolicher-Stehli', 'Goldenberg',
       'Greenfield', 'Harder', 'Hoyt', 'Kimball', 'Lindqvist', 'McCoy',
       'Nakid', 'Persson', 'Taylor'],
      dtype='object', name='Surname')
'''

女性以及年龄在12岁以下儿童:找出女性及儿童中同姓氏均遇难的部分。

#分析女性及儿童同组效应
FCSurNamDf=FemChildDf['Survived'].groupby(FemChildDf['Surname']).mean()
FCSurNamDf.head()
FCSurNamDf.value_counts()
'''
1.000000    115
0.000000     27
0.750000      2
0.333333      1
0.142857      1
Name: Survived, dtype: int64
'''

与男性组特征相似,女性及儿童也存在明显的“同生共死”的特点,因此利用同组效应,对生存率为0的姓氏里的女性及儿童数据进行修正,提升其预测为“并未幸存”的概率。

#获得生存率为0的姓氏
FCSurNamDict={}
FCSurNamDict=FCSurNamDf[FCSurNamDf.values==0].index
FCSurNamDict

然后对其进行修改

#对数据集中这些姓氏的男性数据进行修正:1、性别改为女;2、年龄改为5。
full.loc[(full['Survived'].isnull())&(full['Surname'].isin(MSurNamDict))&(full['Sex']=='male'),'Age']=5
full.loc[(full['Survived'].isnull())&(full['Surname'].isin(MSurNamDict))&(full['Sex']=='male'),'Sex']='female'

#对数据集中这些姓氏的女性及儿童的数据进行修正:1、性别改为男;2、年龄改为60。
full.loc[(full['Survived'].isnull())&(full['Surname'].isin(FCSurNamDict))&((full['Sex']=='female')|(full['Age']<=12)),'Age']=60
full.loc[(full['Survived'].isnull())&(full['Surname'].isin(FCSurNamDict))&((full['Sex']=='female')|(full['Age']<=12)),'Sex']='male'

筛选子集

在对数据进行处理的时候,比如采用one-hot编码的时候,难免会导致维度上升,为了提升数据的有效性,那么就必须对数据进行降维处理

通过找出与乘客生存率“Survived”相关性更高的特征,剔除重复的且相关性较低的特征,从而实现数据降维。

# 先删除没有用的数据,大多是字符串类型的
fullSel=full.drop(['Cabin','Name','Ticket','PassengerId','Surname','SurnameNum'],axis=1)
#查看各特征与标签的相关性
corrDf=pd.DataFrame()
corrDf=fullSel.corr()
corrDf['Survived'].sort_values(ascending=True)

'''
Pclass       -0.338481
Age          -0.059547
SibSp        -0.035322
familyNum     0.016639
TickCot       0.064962
Parch         0.081629
familySize    0.108631
TickGroup     0.151702
Fare          0.257307
Survived      1.000000
Name: Survived, dtype: float64
'''

检查一下数据

image-20221229153720629

生成热力图

# 通过热力图,查看Survived与其他特征间相关性大小。
# 热力图,查看Survived与其他特征间相关性大小
plt.figure(figsize=(8,8))
sns.heatmap(fullSel[['Survived','Age','Embarked','Fare','Parch','Pclass',
                    'Sex','SibSp','Title','familyNum','familySize','Deck',
                     'TickCot','TickGroup']].corr(),cmap='BrBG',annot=True,
           linewidths=.5)
# plt.xticks(rotation=45)

因为TickGroup我与博主的的分类不一致,所以会有那么一点不同

image-20221229153854313

生成one-hot编码

相当于将字符串转化为数值

# 先人工初步筛除与标签预测明显不相关或相关度很低的特征
# 再查看剩余特征与标签之间的相关性大小做进一步降维。
fullSel=fullSel.drop(['familyNum','SibSp','TickCot','Parch'],axis=1)
#one-hot编码
fullSel=pd.get_dummies(fullSel)
PclassDf=pd.get_dummies(full['Pclass'],prefix='Pclass')
TickGroupDf=pd.get_dummies(full['TickGroup'],prefix='TickGroup')
familySizeDf=pd.get_dummies(full['familySize'],prefix='familySize')

fullSel=pd.concat([fullSel,PclassDf,TickGroupDf,familySizeDf],axis=1)

使用info检查
image-20221229154308225

参考链接

超详细Seaborn绘图 ——(一)barplot

get_dummies函数介绍_mengke_yu的博客

Pandas DataFrame入门教程(图解版) (biancheng.net)

【Python-数据分析】相关关系(矩阵)的3种展示技巧:corr()-热力图-条形图 - 知乎 (zhihu.com)

标签:full,pd,Age,生存率,28,kaggle,Survived,TitleDict,2022.12
From: https://www.cnblogs.com/mokou/p/17012728.html

相关文章

  • 电脑桌面主题(28)和动态视频壁纸(31)合集(收藏)
      最近就是突然被身边朋友的电脑壁纸给吸引到了,在这之前的我一直遵循着“大道至简”的原则,一张Windows原生态静态壁纸走天下,但是作为一个00后我还是“破戒”了,其......
  • [JZOJ5177]【NOIP2017提高组模拟6.28】TRAVEL
    DescriptionSolution显然,答案的L和R一定是某两个边权那么可以直接把边按R排序。枚举L,二分R判断所有的边是否合法,合法的用并查集连起来判断1和N是否在一个集合中即可Co......
  • CS5280H 无网络安装KVM虚拟机的过程
    背景信创海光机器想进行虚拟化自带了银河麒麟V10SP1的操作系统.但是没有安装virt-manager等工具会议室里面的网口又都坏了.所以准备挑战一下无网络安装KVM.过程1......
  • 2022-12-28 走势生长之不测而测 看11月30号市场连线,缠论的终极运用
    1.三个基本概念(1)级别:可完成的按照级别次序为:笔,线段,大线段,走势类型(按照中枢大小进行比较)(2)背驰:关注线段背驰和中枢背驰的不同        (3)多头空头萌发:本......
  • 软件方法(下)分析和设计第9章分析 之 分析类图——案例篇(20211228更新)
    ​​软件方法(下)分析和设计第8章分析之分析类图——知识篇(20211227更新)​​鸳鸯扣,宜结不宜解《身似摇红烛影》,词:唐涤生,曲:王粤生,唱:红线女,1954可到此处下载本文档最新版本:​......
  • 智能灌溉远程采集控制网关BL280
    智能灌溉,顾名思义就是自动感知灌溉需求信息,自动执行灌溉操作任务,无需人工监控,的一种自动化灌溉模式。智能灌溉综合应用了计算机技术、传感技术、无线通信技术等现代化技术......
  • ORA-28001: the password has expired解决方法
    Oracle提示错误消息ORA-28001:thepasswordhasexpired,是由于Oracle11G的新特性所致,Oracle11G创建用户时缺省密码过期限制是180天(即6个月),如果超过180天用户密码未做修......
  • 2022/12/28
    今天和爆破斗了一天...誓与爆破死磕到底写的加密有问题,还是不能自己写加密,跟个垃圾一样,明天去网上搜点简单的爆破例子写的代码和想要的代码得是一个意思不能构思的时候......
  • 【221228-3】利用相似三角形求Sin18的值
    ......
  • the seventh——2022.12.28
    %a.bf的含义%f是输出float(单精度浮点型)型变量,%m.nf中m代表输出数长,n代表小数点后的数长,即保留n位小数。如果小数点后的数大于n,例如12.4567按照%5.2f输出得12.46(四舍五入......