首页 > 其他分享 >Kaggle——competition1 Titanic

Kaggle——competition1 Titanic

时间:2022-12-24 16:13:00浏览次数:69  
标签:Titanic Kaggle 选取 类型 competition1 卡方

今天第一次跟着别人的Notebook顺着做了一下kaggle里面的入门比赛:预测泰坦尼克溺亡(虽然分数只有0.77...)

发现很大一部分工作在于数据清洗这块,这一过程中也是认识到了很多新东西,现在大概列一下:

  1. 先将可能造成data leakage,或者一看就没啥关系的的相关列drop
  2. 分categories和numerical类型处理missing value
  3. 对非参数类型,如‘Sex’,进行卡方检验,判断相关程度卡方检验(Chi-Squared Test) - 知乎 (zhihu.com)
  4. 对数值类型,进行方差分析:Anova,这两步相当于在进行特征的选取工作
  5. 将训练集split,分别用logistics,knn,决策树,随机森林去预测
  6. 对于小数据的,在sklearn中的modelselection有一个GridSearchCv,就是线性扫描一遍,选取最佳的参数
  7. 其他的几个小tips:归一化MaxMinscale,pandas的一种onehotencode:pd.get_dummy

标签:Titanic,Kaggle,选取,类型,competition1,卡方
From: https://www.cnblogs.com/sun-secretbase/p/17002969.html

相关文章