机器学习中用随即森林（决策树）预测缺失值

时间：2022-10-20 10:00:12浏览次数：62

标签：Ytest rfr 机器预测 df 决策树缺失 fill

训练集和测试集的划分

Ytrain：指的是缺失值那行所对应的有值的部分

Ytest：指的是缺失值，需要预测的部分（一般的监督学习不会预测Ytest，因为我们是预测该缺失的数据，所以Ytest不用做比较，直接进行预测填补缺失值）

Xtrain：指的是未缺失部分所对应的特征值

Xtest：指的是缺失部分所对应的特征值

决策树预测缺失值的方法（两种情况）：

第一种情况：只预测一行缺失值

1.构建新的特征矩阵

2.划分训练集和测试集

3.用随机森林来预测

4.将预测的数值对原数据进行覆盖

 1 def fill_missing_rf(x, y, to_fill):
 2     df = x.copy()
 3     fill = df.loc[:, to_fill]
 4     df = pd.concat([df.loc[:, df.columns != to_fill], pd.DataFrame(y)], axis=1)
 5     
 6     Ytrain = fill[fill.notnull()]
 7     Ytest = fill[fill.isnull()]
 8     Xtrain = df.iloc[Ytrain.index, :]
 9     Xtest = df.iloc[Ytest.index, :]
10     
11     rfr = RandomForestRegressor(n_estimators=100)
12     rfr = rfr.fit(Xtrain, Ytrain)
13     Ypre = rfr.predict(Xtest)
14     return Ypre

第二种情况：预测多列缺失值

1.找出多列缺失值，将缺失值按照数值由小到大进行排列。（因为预测的情形需要有少到多，准确率更高）

2.构建新的特征矩阵

3.划分训练集和测试集

4.用随机森林来预测

5.将预测的数值对原数据进行覆盖

标签：Ytest,rfr,机器,预测,df,决策树,缺失,fill
From： https://www.cnblogs.com/future-panda/p/16808717.html

算法高级（46）-波士顿动力机器人ATLAS
一、引言如果说阿尔法狗是对人类智力的碾压，那么，波士顿动力研发的机器人，正在挑战的是仿生学。波士顿动力公司（BostonDynamics）一致在专注于机器人的研发，每一次波士顿动力放出......
0003 机器学习实战第三章分类
1 本章所有示例代码#!/usr/bin/envpython#-*-coding:UTF-8-*-"""路径:lesson03.py标题:分类创建:2022-10-1517:46更新:2022-10-1517:......
ML[001] 机器学习基本概念
机器学习是能够从数据中学习的算法（通过经验E改进后，在任务T上由性能度量P衡量的性能会有所提升） 1.数据集（dataset）训练集（trainingset）：用来进行训练，也就是产生模型或算......
【自然语言处理（NLP）】基于SQuAD的机器阅读理解
【自然语言处理（NLP）】基于SQuAD的机器阅读理解作者简介：在校大学生一枚，华为云享专家，阿里云专家博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学校计算机教学与产业实践......
如何计算QPS、PV和需要部署机器数量？
基本概念网站访问量的常用衡量标准：独立访客(UV)和综合浏览量（PV）,一般以日为单位来计算。独立访客(UV)：指一定时间范围内相同访客多次访问网站，只计算为1个独立访客。综合......
svn之缺失文件导致无法实现更新提交
1.错误表现在svn出现和主分支冲突时，经常出现先一个感叹号，点击更新时出现乱码错误，导致无法使用更新和提交功能，原因是缺失了部分文件，导致无法使用其功能 ......
基于JQuery和思知对话机器人提供的API实现一个简单的对话聊天界面
思知文档：https://www.ownthink.com/docs/bot/因为设计简单就直接上代码了，效果图在最后！1）界面实现html中body代码<body><divid="box"><d......
【算法】求解最小机器重量设计问题回溯法（C++源码）
【算法】求解最小机器重量设计问题回溯法（C++源码）一、问题描述二、输入描述三、输出描述四、输入样例五、输出样例六、步骤描......
机器学习——决策树模型
1.决策树概述1.1决策树模型简介决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶子节点代表一种类别。树的组成：根节......
机器学习实战-支持向量机
1.支持向量机简介英文名为SupportVectorMachine简称为SVM，是一种二分类模型线性可分支持向量机：如下图就可以通过一条红色的直线将蓝色的球和红色的球完全区分开，该直......

机器学习中用随即森林（决策树）预测缺失值

相关文章

赞助商

阅读排行