注意:
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC, LinearSVC
from sklearn.ensemble import RandomForestClassifier
数据处理、特征工程:
函数学习:
pandas中的read_csv:读入csv文件。
info:列出csv数据文件中,各列的数据信息,包括数据名称、数量、类型。
drop([],axis=',inplace=True):丢掉数据中的某一列,inplace=True表示在源数据上修改,drop后原来的数据集改变。
fillna("x"):将缺失数据补齐为x。
fig, (axis1,axis2,axis3) = subplot(1,3,figsize=(15,5)):画一行三列子图,figsize表示图的大小。
countplot(x='',y='',hue="",data=,order=[,],ax=axisn):统计数量图,x,y轴变量,以hue线索来分割x轴每个数据,data是数据集,order是x轴变量的排序,ax表示子图号。
barplot(x='',y='',hue="",data=,order=[,],ax=axisn):画柱状图,x,y轴变量,以hue线索来分割x轴每个数据,data是数据集,order是x轴变量的排序,ax表示子图号。
factorplot(x='',y='',data=,kind='bar',order=[,],ax=axisn):根据两个维度画图,x,y轴变量,以hue线索来分割x轴每个数据,data是数据集,order是x轴变量的排序,ax表示子图号,kind表示图的种类。
get_dummies:把数据转换为指示变量。
mean:求均值。
std:求方差。
astype(int):将类型转换为int类型。
loc:索引一定条件的数据下标。
map:对列表中的元素迭代使用某函数。
apply:对数据元素进行某个操作。
seaborn.kdeplot(kernel density estimation)是核密度估计。核的作用是根据离散采样,估计连续密度分布。
pd.Series(logreg.coef_[0]):# get Correlation Coefficient for each feature using Logistic Regression
import sklearn.preprocessing as preprocessing
scaler = preprocessing.StandardScaler()
age_scale_param = scaler.fit(df['Age'])
归一化处理
对数据的操作:
1.对年龄求均值后加减方差的范围内求随机数。
2.补齐。
3.从训练数据集中看是否对结果影响,影响很小的特征直接drop.