PySpark 随机森林回归机器学习——一种实用的方法，第 7 部分

brilliantprogrammer

大家好，在之前的博客中，我们学习了使用 pyspark 的线性回归算法，在本博客中，我们还将更具体地学习使用 PySpark 的机器学习 随机森林回归 并且还执行一些实际操作。

注：启动步骤同 以前的教程 l，如果您不想再次运行它们，请直接跳到 Random Forest Regressor 部分。

首先，您必须从 kaggle 下载 Admission_Prediction.csv 数据集链接在这里。

导入所需的库并创建 SparkSession。

使用的库

向量汇编器： 将多列合并为向量列的特征转换器。
矢量索引器： 自动识别分类特征（默认行为）。
随机森林回归器： 用于回归的随机森林学习算法。它支持连续和分类特征。
回归评估器： 回归评估器，它需要输入列预测、标签和可选的权重列

读取数据

清理数据

删除不需要的列并重命名某些列。

检查 Null 值并替换它们

将我们所有的特征组装到一个向量中

随机森林回归器

用于索引 Vector 数据集中的分类特征列的类。

拆分数据

按 7:3 的比例将数据拆分为测试和训练。

应用 RandomForestRegressor

训练模型

对测试数据进行预测

现在，我们完成了预测，我们将检查 RMSE 值和 R2 值。

到这里，我们就结束了本教程。

谢谢大家阅读这个博客。在这篇博客中，我们现在学习了使用 PySpark 的实用随机森林回归器，我们将在下一部分学习数据块平台。

如果您喜欢这个博客，请关注我的下一部分并鼓掌。

本文链接：https://www.qanswer.top/39732/33592909

标签：学习,PySpark,回归,博客,实用,随机,森林
From： https://www.cnblogs.com/amboke/p/16740334.html

.NET教程 - 数值 & 随机数（Number & Random）
更新记录转载请注明出处：2022年9月29日发布。2022年9月28日从笔记迁移到博客。System.Numerics.BigIntegerBigInteger说明BigInteger类型用于表示任意大的整数数......
直播开发app，JavaScript生成随机数
直播开发app，JavaScript生成随机数<scripttype="text/javascript">//产生随机数functiongetRandom(min,max){vara=Math.floor((Math.random())*(max-1+min)+min)return......
实用五步法教会你指标体系的设计与加工
今天我们来和大家聊一聊一个新话题，一个对于企业业务发展十分关键的东西——指标。指标建设是衡量企业业务效果的主要依据，本文结合自身实践经验和大家分享指标的设计与加工......
实用五步法教会你指标体系的设计与加工
今天我们来和大家聊一聊一个新话题，一个对于企业业务发展十分关键的东西——指标。指标建设是衡量企业业务效果的主要依据，本文结合自身实践经验和大家分享指标的设计与加工......
10个.NetCore实用的开源框架项目
今天我们一起梳理下10个，比较受到大家欢迎的.NetCore开源框架项目。1、FytSoaCms 前后端分离CMS系统项目简介这是一个基于.Net3构建的简单、跨平台、模块化建站系统。......
随机字符串
使用了org.apache.commons.lang包下的工具类RandomStringUtils引入依赖<dependency><groupId>org.apache.commons</groupId><artifactId>com......
P2044 随机数生成器题解
这么标准的不动点居然只有一篇不动点题解？而且唯一的不动点题解关于不动点的描述还是错的？所以，来写一篇题解讲讲，MO中是怎么弄这种一阶线性递推式的。单个数，虽然省常数，却......
数组的随机排序
functionshuffle(arr){varlen=arr.length;for(vari=0;i<len-1;i++){varidx=Math.floor(Math.random()*(len-i));vartemp=arr[idx];arr[idx]=......
生成随机四位数验证码
functiongetCode(n){//有一个基础数据可以获取到其中的随机的字符varstr='0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ';//空的字符串存......
javascrip的随机应用，和练习案例
//Math.random()//Math.random()返回0（包括）至1（不包括）之间的随机数：varzxc=Math.random()console.log(zxc);//Math......

PySpark 随机森林回归机器学习——一种实用的方法，第 7 部分

PySpark 随机森林回归机器学习——一种实用的方法，第 7 部分

使用的库

读取数据

清理数据

检查 Null 值并替换它们

将我们所有的特征组装到一个向量中

随机森林回归器

拆分数据

应用 RandomForestRegressor

训练模型

对测试数据进行预测

相关文章

赞助商

阅读排行