标签：泰坦尼克号 Features 生存 df age pclass 旅客 train history

数据预处理

加载数据集

import numpy as np
import pandas as pd
all_df =  pd.read_csv("titanic.csv")

部分数据

提取所需要的列

cols=['survived','name','pclass','sex','age','embarked']#定义所需要的列
all_df=all_df[cols] #返回指定的列
all_df[:2]

处理完之后的部分数据

删除名字列

因为名字作为特征对预测没有任何作用

df=all_df.drop(['name'],axis=1)

数据填充并替换

在年龄字段中，有些人的年龄数据丢失了，要补上，补上的方法就是使用平均年龄。使用dataframe['column'].mean()函数处理

在舱位字段中，因为舱位是以'1st','2nd','3rd'方式保存，要输入到神经网络中，应当是转为数值

在性别字段中，都是用female和male表示，因此也要转换为整数，使用dataframe.map({映射表})函数处理

出发地有多种，可以转换为独热编码表示，使用pandas的get_dummies(dataframe,要转换的column)函数处理。

age_mean=df['age'].mean() #计算年龄均值
df['age']=df['age'].fillna(age_mean) #填充空白年龄
df['pclass']=df['pclass'].fillna('3rd') #填充空白舱位
df['pclass']=df['pclass'].map({'1st':1,'2nd':2,'3rd':3}).astype(int) #将舱位根据映射表转换为整数
df['sex']=df['sex'].map({'female':0,'male':1}).astype(int) #将性别根据映射表转换为整数
x_OneHot_df=pd.get_dummies(data=df,columns=['embarked'])#将出发地转换为独热编码表示

将DataFrame转换为矩阵表示

ndarray=x_OneHot_df.values

拆分特征集和标签集

DataFrame中可以发现，第一列都是是否生还，用0和1表示，作为标签集，之后的列都是作为特征

Label = ndarray[:,0] # ':'表示第一维的全部数据，0表示第二维的第0项
Features = ndarray[:,1:] # ':'表示第一维的全部数据，1：表示第二维的第1项以及之后所有项

将数据进行标准化

MinMaxScaler((范围)).fit_transform(矩阵) 函数可以将数据标准化，缩放到指定区间，使用时要先指定区间、再用

from sklearn import preprocessing
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0,1))
scaledFeatures=minmax_scale.fit_transform(Features)

分离训练集和验证集

msk = np.random.rand(len(all_df)) < 0.8  #rand(n)，表示生成n个0到1之间的随机数，小于0.8的作为boolan值True，是一个数组
print(msk) #对于每一项数据，都产生了一个bool类型索引 
train_df = all_df[msk] #索引True加入到训练集 
test_df = all_df[~msk] #索引为False的加入到测试集

np.random.rand(n) 会产生n个随机数，是一个数组

np.random.rand(n) < 0.8 则是将数组内小于0.8的作为True，大于0.8的作为False，这样就得到了一个Boolean类型数组，与n个随机数一一对应。

经过上述转换后，Boolean数组可以作为数据中的索引。

dataframe中可以使用bool索引，将索引为true的都返回。

将上述数据处理过程打包成一个函数

输入参数为一个数据集，返回这个数据集的特征集以及标签集

def PreprocessData(raw_df):
    df=raw_df.drop(['name'],axis=1) #删除名字一列
    age_mean=df['age'].mean() #求年龄的平均值
    df['age']=df['age'].fillna(age_mean) #用平均值填补空白的年龄
    df['pclass']=df['pclass'].fillna('3rd')  #将舱位空的用3rd填充
    df['pclass']=df['pclass'].map({'1st':1,'2nd':2,'3rd':3}).astype(int) #将舱位映射到整数1，2，3
    df['sex']=df['sex'].map({'female':0,'male':1}).astype(int) #性别映射到整数1，2
    x_OneHot_df=pd.get_dummies(data=df,columns=['embarked']) #出发地改成独热编码表示
    ndarray=x_OneHot_df.values #将DataFrame转换为矩阵表示
    Label = ndarray[:,0] #将所有项的第0列作为标签
    Features = ndarray[:,1:] #将所有项的第1列以及以后的所有列作为特征集
    minmax_scale = preprocessing.MinMaxScaler(feature_range=(0,1))#设置数据缩放尺度为0到1区间
    scaledFeatures=minmax_scale.fit_transform(Features) #对Feature转换到0到1区间
    return scaledFeatures,Label #返回压缩后的特征集以及标签集

建立模型

建立数据处理函数

from sklearn import preprocessing
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0,1)) #指定压缩的目标区间
def PreprocessData(raw_df):
    df=raw_df.drop(['name'],axis=1)
    age_mean=df['age'].mean()
    df['age']=df['age'].fillna(age_mean)
    df['pclass']=df['pclass'].fillna('3rd')
    df['pclass']=df['pclass'].map({'1st':1,'2nd':2,'3rd':3}).astype(int)
    df['sex']=df['sex'].map({'female':0,'male':1}).astype(int)
    x_OneHot_df=pd.get_dummies(data=df,columns=['embarked'])
    ndarray=x_OneHot_df.values #将DataFrame转换为矩阵表示
    Label = ndarray[:,0] #将所有项的第0列作为标签
    Features = ndarray[:,1:] #将所有项的第1列以及以后的所有列作为特征集
    minmax_scale = preprocessing.MinMaxScaler(feature_range=(0,1))#设置数据缩放尺度为0到1区间
    scaledFeatures=minmax_scale.fit_transform(Features) #对Feature转换到0到1区间
    return scaledFeatures,Label #返回压缩后的特征集以及标签集