Kaggle——competition1 Titanic

时间：2022-12-24 16:13:00浏览次数：72

标签：Titanic Kaggle 选取类型 competition1 卡方

今天第一次跟着别人的Notebook顺着做了一下kaggle里面的入门比赛：预测泰坦尼克溺亡（虽然分数只有0.77...）

发现很大一部分工作在于数据清洗这块，这一过程中也是认识到了很多新东西，现在大概列一下：

先将可能造成data leakage，或者一看就没啥关系的的相关列drop
分categories和numerical类型处理missing value
对非参数类型，如‘Sex’，进行卡方检验，判断相关程度卡方检验（Chi-Squared Test） - 知乎 (zhihu.com)
对数值类型，进行方差分析：Anova,这两步相当于在进行特征的选取工作
将训练集split，分别用logistics，knn，决策树，随机森林去预测
对于小数据的，在sklearn中的modelselection有一个GridSearchCv，就是线性扫描一遍，选取最佳的参数
其他的几个小tips：归一化MaxMinscale，pandas的一种onehotencode：pd.get_dummy

标签：Titanic,Kaggle,选取,类型,competition1,卡方
From： https://www.cnblogs.com/sun-secretbase/p/17002969.html

kaggle竞赛_mnist_10%
主要是通过mnist了解kaggle的操作细节，最终这里的结果为：引入必须的库¶importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasp......
Kaggle学习：A Journey through Titanic
https://kagglesds.blob.core.windows.net/script-versions/447794/notebook/__notebook__.ipynb?sv=2015-12-11&sr=b&sig=KfDPSVmALrMN7XeJ3j9GesHBJ8DP4qilENQX0byejt......
拓端tecdat|R语言逻辑回归logistic模型分析泰坦尼克titanic数据集预测生还情况
逻辑回归是一种拟合回归曲线的方法，y=f(x)，当y是一个分类变量时。这个模型的典型用途是在给定一组预测因素x的情况下预测y，预测因素可以是连续的、分类的或混合的。一般来......
实战Kaggle比赛：预测房价
引言最近在看沐神《pytorch动手学深度学习》视频，本文记录一下自己跟着写的一个小实战。内容第一步：下载数据集链接：https://pan.baidu.com/s/1YtH1FGIcraiDgJCmq84WKQ?pw......
最年轻的Kaggle Master：永远不要复制别人的工作！
AndyWang，高中新生，学习经验总结有些人可能会觉得数据科学和机器学习这两个术语令人生畏，认为它们需要专业技能才能成功。盯着无穷无尽的代码，可能会让人不知所措。Kaggle是......
Kaggle竞赛神器—Facets：快速评估数据集质量，把控数据分析核心环节
在机器学习任务中，数据集的质量优劣对数据分析的结果影响非常大，所谓Garbagein,garbageout，数据决定模型的上限，因此数据质量成为数据分析流程不可或缺的一个环节。即使是像K......
Kaggle泰坦尼克号船难--逻辑回归预测生存率
Kaggle泰坦尼克号船难–逻辑回归预测生存率#一、题目https://www.kaggle.com/c/titanic二、题意分析train.csv中有891条泰坦尼克号乘客的数据，包括这些乘客的一些......
【kaggle】基于xgboost的boston房价预测
学习总结（1）本task其实较为简单。选用最熟悉（简单）的波士顿房价数据集，进行数据分析；另外主要是回顾sklearn的基本用法，复习xgboost模型及其参数的选择。文章目录学习总结......

Kaggle——competition1 Titanic

相关文章

赞助商

阅读排行