今天第一次跟着别人的Notebook顺着做了一下kaggle里面的入门比赛:预测泰坦尼克溺亡(虽然分数只有0.77...)
发现很大一部分工作在于数据清洗这块,这一过程中也是认识到了很多新东西,现在大概列一下:
- 先将可能造成data leakage,或者一看就没啥关系的的相关列drop
- 分categories和numerical类型处理missing value
- 对非参数类型,如‘Sex’,进行卡方检验,判断相关程度卡方检验(Chi-Squared Test) - 知乎 (zhihu.com)
- 对数值类型,进行方差分析:Anova,这两步相当于在进行特征的选取工作
- 将训练集split,分别用logistics,knn,决策树,随机森林去预测
- 对于小数据的,在sklearn中的modelselection有一个GridSearchCv,就是线性扫描一遍,选取最佳的参数
- 其他的几个小tips:归一化MaxMinscale,pandas的一种onehotencode:pd.get_dummy