项目过程
导包——加载数据——数据预处理——选择算法训练数据——测试数据——将测试结果导入.csv中
数据预处理
- 删除无关特征:如用户ID,训练集和测试集都要删除
- 将文本数据进行数值化:数据包含很多文本信息,需要将其转换成模型需要的类型
- 填充缺失值:unknown样本需要填充
- 进行特征与预测结果的探索性分析:查看各个特征对最后的预测结果影响,进而对特征进行选择
算法选择
二分类算法包括:逻辑回归、SVM、KNN、决策树、集成方法
集成方法精度更高,在此基础上可以研究GBDT,XGBoost,LightGBM等方法,或者深度学习