本文记录下我练习的过程,欢迎交流。
参考书目 《阿里云天池大赛赛题解析》
数据导入
train_data = pd.read_csv('data_origin/zhengqi_train.txt', sep='\t', encoding='utf-8') test_data = pd.read_csv('data_origin/zhengqi_test.txt', sep='\t', encoding='utf-8')
数据分析
可视化分析
箱线图观察异常值情况
绿框是数据分布较为集中的特征,红框是存在离散特别大数据的特征。
KDE图分析数据分布偏斜情况
target特征
train和test相同特征分布情况对比
QQ图分析是否符合正太分布假设
红框框选了train和test相近表现的特征