首页 > 编程语言 >Spark MLlib模型—决策树系列算法

Spark MLlib模型—决策树系列算法

时间:2024-08-03 22:52:50浏览次数:17  
标签:模型 MLlib 算法 Spark 节点 决策树

文章目录

Spark MLlib模型—决策树系列算法

前面我们重点介绍了机器学习中的特征工程,以及 Spark MLlib 框架支持的特征处理函数。基于线性回归模型,我们对比了不同特征处理方法下的模型效果。

一般来说,线性模型的模型容量比较有限,它仅适合拟合特征向量与预测标的之间存在线性关系的场景。但在实际应用中,线性关系少之又少,就拿“房价预测”的项目来说,不同的房屋属性与房价之间,显然不是单纯的线性关系。这也是为什么在房价预测的任务上,线性回归模型的预测误差一直高居不下。因此,为了提升房价预测的准确度,我们有必要从模型选型的角度,着手去考虑采用其他类型的模型算法,尤其是非线性模型。

在机器学习领域,如果按照“样本是否存在预测标的(Label)”为标准,机器学习问题可以分为监督学习(Supervised Learning)与非监督学习(Unsupervised Learning)。Spark MLlib 同时支持这两大类机器学习算法,如下图所示。

image-20240803092826600

以看到,在 Spark MLlib 开发框架下,按照使用场景不同,监督学习又被细分为回归(Regression)、分类(Classification)和协同过滤(Collaborative Filtering);而非监督学习被细分为聚类(Clustering)与频繁项集(Frequency Patterns)。

决策树系列算法

马上就是“双十一”了,你可能很想血拼一把,但一摸自己的钱包,理智又占领了高地。试想一下,预算有限的情况下,你会如何挑选一款手机呢?我们往往会结合价位、品牌、评价等一系列因素考量,最后做出决策。其实这个依据不同决定性因素来构建决策路径的过程,放在机器学习里,就是决策树。接下来,我们用严谨一点的术语再描述一下什么是决策树。

决策树(Decision Trees)是一种根据样本特征向量而构建的树形结构。决策树由节点(Nodes)与有向边(Vertexes)组成,其中节点又分为两类,一类是内部节点,一类是叶子节点。内部节点表示的是样本特征,而叶子节点代表分类。

举例来说,假设我们想根据“居室数量”和“房屋面积”这两个特征,把房屋分为 5 类。那么,我们就可以构建一个决策树,来做到这一点,如

标签:模型,MLlib,算法,Spark,节点,决策树
From: https://blog.csdn.net/2401_84052244/article/details/140897328

相关文章

  • Spark
    Sparkcorespark作业执行的特点*spark作业执行的特点:*1、只有遇到行动算子的时候,整个spark作业才会被触发执行*2、遇到几次,执行几次算子RDDRDD:弹性分布式数据集*弹性:数据量可大可小*RDD类似于容器,但是本身存储的不是数据,是计算逻辑*当遇到行动算子的时候,整个sp......
  • Spark内存计算引擎原理与代码实例讲解
    Spark内存计算引擎原理与代码实例讲解关键词:Spark,内存计算,RDD,DAG,Shuffle,容错,分布式计算1.背景介绍1.1问题的由来随着大数据时代的到来,传统的基于磁盘的MapReduce计算框架已经无法满足实时计算、迭代计算等场景对计算性能的要求。Spark应运而生,其基于内......
  • 【Spark高级应用】使用Spark进行高级数据处理与分析
    Spark高级应用使用Spark进行高级数据处理与分析引言在大数据时代,快速处理和分析海量数据是每个企业面临的重大挑战。ApacheSpark作为一种高效的分布式计算框架,凭借其高速、易用、通用和灵活的特点,已经成为大数据处理和分析的首选工具。本文将深入探讨如何使用Spark进行......
  • 图书《数据资产管理核心技术与应用》核心章节节选-3.1.2. 从Spark 执行计划中获取数据
    本文节选自清华大学出版社出版的图书《数据资产管理核心技术与应用》,作者为张永清等著。从Spark执行计划中获取数据血缘因为数据处理任务会涉及到数据的转换和处理,所以从数据任务中解析血缘也是获取数据血缘的渠道之一,Spark是大数据中数据处理最常用的一个技术组件,既可以做实......
  • 深入浅出:可视化理解揭示决策树与梯度提升背后的数学原理
    决策树是一种非参数的监督学习算法,可用于分类和回归。它使用类似树的结构来表示决策及其潜在结果。决策树易于理解和解释,并且可以轻松地进行可视化。但是当决策树模型变得过于复杂时,它不能很好地从训练数据中泛化,会导致过拟合。梯度提升是一种集成学习模型,在其中结合许多弱学习器......
  • 如何在 PySpark 中将二进制图像数据转换为 RGB 数组?
    我有一个具有以下架构的pysparkdf:root|--array_bytes:binary(nullable=true)我希望能够将其转换为图像数组。我可以使用以下代码在Pandas中完成此操作:df_pandas=df.toPandas()defbytes_to_array(byte_data):arr=np.frombuffer(byte_data,dtype=np......
  • 无法过滤掉 PySpark 中巨大数据集中的数据帧
    我有一个巨大的PySpark数据框,其中包含1.5B行,包括列fieldA我有一个8.8M唯一fieldA值的列表,我想从1.5B行中过滤掉。但是,我认为由于数据量较大,我不断收到类似StackOverflowError或OutOfMemoryError的错误。我尝试将8.8M列表拆分......
  • AI创作商业系统软件源码(SparkAi系统) AI换脸/智能体GPTs应用/AI视频生成AI绘画/文档分
    AI创作商业系统软件源码(SparkAi系统)AI换脸/智能体GPTs应用/AI视频生成AI绘画/文档分析/GPT4.0模型支持目录一、人工智能SparkAi创作系统二、功能模块介绍系统快速体验三、系统功能模块3.1AI全模型支持/插件系统AI模型提问AI智能体文档分析多模态识图理解TTS&......
  • 【第二篇章】优秀的机器学习策略 超参数优化之决策树
    在机器学习的浩瀚星空中,决策树作为一颗璀璨的星辰,以其直观易懂、解释性强以及高效处理分类与回归任务的能力,赢得了众多数据科学家与工程师的青睐。随着大数据时代的到来,如何从海量数据中提炼出有价值的信息,构建出既准确又可靠的预测模型,成为了机器学习领域不断探索的热点。......
  • 《Milvus Cloud向量数据库》——Spark Connector 工作原理及使用场景
    SparkConnector工作原理及使用场景深度解析在大数据处理与机器学习领域,ApacheSpark和Databricks已成为处理海量数据的首选工具。它们不仅能够高效地处理结构化数据,还擅长以批量的方式处理非结构化数据,进行数据清洗,并调用模型生成Embedding向量。然而,在处理完这些数据......