取相关系数大于0.3的决策树baseline

时间：2022-12-09 14:11:22浏览次数：48

标签：index baseline 0.3 feature train np import out 决策树

模型在测试集的准确率为0.74提升了一些说明根据相关系数取模型是不错的选择。 import matplotlib.pyplot as plt import numpy as np import pandas as pd import seaborn as sns df = pd.read_csv('train.csv') df=df.drop(['ID'],axis=1) df=df.to_numpy() feature=np.abs(np.fft.fft(df[:,:-1])) feature=np.concatenate((feature,np.reshape(df[:,-1],(-1,1))),axis=1) train=pd.DataFrame(feature) heat=train.corr() fe=heat.index[abs(heat[240])>0.3] train=train.to_numpy() train=train[:,fe] from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score from sklearn import tree from sklearn.model_selection import cross_val_score from sklearn.model_selection import KFold kf=KFold(n_splits=5,shuffle=False) for k in range(30): sum=0 sum1=0 i=0 for train_index,test_index in kf.split(train): i=i+1 tfeature=train[train_index,:-1] label=train[train_index,-1] clf=tree.DecisionTreeClassifier(criterion='entropy',random_state=0,max_depth=k+1) clf.fit(tfeature,label) l=clf.predict(tfeature) ttest=train[test_index,:-1] testlabel=train[test_index,-1] l1=clf.predict(ttest) pr=accuracy_score(label, l) pr1=accuracy_score(testlabel, l1) sum=sum+pr sum1=sum1+pr1 clf1=tree.DecisionTreeClassifier(criterion='entropy',random_state=0,max_depth=k+1) scores = cross_val_score(clf1, train[:,:-1], train[:,-1], cv=5) print(k,sum/i,sum1/i,scores.mean()) clf1=tree.DecisionTreeClassifier(criterion='entropy',random_state=0,max_depth=4+1) clf1.fit(train[:,:-1],train[:,-1]) df1 = pd.read_csv('test.csv') df1=df1.drop(['ID'],axis=1) df1=df1.to_numpy() feature=np.abs(np.fft.fft(df1[:,:])) feature=feature[:,fe[:-1]] out=clf1.predict(feature) out=pd.DataFrame(out) out.columns = ['CLASS'] w=[] for k in range(out.shape[0]): w.append(k+210) out['ID']=np.reshape(w,(-1,1)) out[['ID','CLASS']].to_csv('out3.csv',index=False)

标签：index,baseline,0.3,feature,train,np,import,out,决策树
From： https://www.cnblogs.com/hahaah/p/16968772.html

直接用决策树跑baseline
准确率是0.67，下一篇博客将去掉偏差大的特征。importmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdimportseabornassnsdf=pd.read_csv('train......
机器学习--决策树分类算法及应用
1.决策树分类算法原理1.1概述决策树（decisiontree）——是一种被广泛使用的分类算法。相比贝叶斯算法，决策树的优势在于构造过程不需要任何领域知识或参数设置在实际应用中，对......
数据分享|R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
全文链接：http://tecdat.cn/?p=22262最近我们被客户要求撰写关于心脏病数据的研究报告，包括一些图形和统计输出。在讨论分类时，我们经常分析二维数据（一个自变量，一个因变量）......
详解决策树-决策树的优缺点 & 分类树在合成数集上的表现【菜菜的sklearn课堂笔记】
视频作者：[菜菜TsaiTsai]链接：[【技术干货】菜菜的机器学习sklearn【全85集】Python进阶_哔哩哔哩_bilibili]决策树的优缺点决策树优点易于理解和解释，因为树木可以画出......
IBM SPSS Modeler分类决策树C5.0模型分析空气污染物数据
全文链接：http://tecdat.cn/?p=30752原文出处：拓端数据部落公众号如何通过方法有效的分析海量数据，并从其中找到有利的资讯已经成为一种趋势。而决策树算法是目前在进行数据......
编曲宿主DAW软件flstudio21win64_21.0.0.3318中文版,2023年最新终身无需激活版免费下
flstudio21最新win64_21.0.0.3318中文版是一款非常专业的后期音频处理软件，对于音乐编辑处理的领域内的人而言，是非常能够满足需求的一款软件。FLStudio21拥有强大且专业的创......
决策树实现
importmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdimporttorchimporttorch.fftasfftdf=pd.read_csv('train.csv')df=df.drop(['ID'],ax......
零基础入门数据挖掘——二手车交易价格预测：baseline
零基础入门数据挖掘-二手车交易价格预测赛题理解比赛要求参赛选手根据给定的数据集，建立模型，二手汽车的交易价格。赛题以预测二手车的交易价格为任务，数据集报名后可见......
Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple
郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！NeurIPS2022......
7.第三章第3节： 2021.10.30 异常处理与日志
......

取相关系数大于0.3的决策树baseline

相关文章

赞助商

阅读排行