?p=30752

原文出处：拓端数据部落公众号

如何通过方法有效的分析海量数据，并从其中找到有利的资讯已经成为一种趋势。而决策树算法是目前在进行数据分析时很常用的方法。本文将使用IBM SPSS Modeler进行实践，介绍决策树在空气污染预测领域的实践案例。

分类预测模型的构建流程，具体步骤如下：

（1）数据处理：审核数据，过滤掉含有缺失值的数据记录。

（2）划分数据集，训练集70%，测试集30% 。

（3）构建模型时的参数设置。

（4）构建模型：构建C5.0模型。

（5）结果评估，用测试集数据运行得到的运行结果，对模型采用命中率评估两个模型的预测效果。

加入表节点

读取数据

添加“抽样”节点

随机抽取70%的样本作为训练集

“C5.0”节点

生成的决策树模型，并对测试数据进行预测

得到测试数据的分类结果的准确度

预测分类结果

有88.1%的测试样本的预测值和实际值相符。

并且得到如下的决策树模型：

QQ截图202211071216502.png

其中变量的重要性如下图所示：

从结果可以看到，首要污染物类型与AQI、NO2还有O3等变量有关。其中AQI对首要污染物类型的结果具有最重要的影响。

C5.0是在C4.5的基础上发展起来的。C5.0 算法是用信息增益（根节点的熵减去该拆分的熵）来度量拆分纯度的。第一次拆分某一字段，划分出相对应的样本子集。然后继续拆分这些样本子集，一般情况下使用的是另一字段进行拆分，一直循环这样一个过程，直到满足拆分终止条件。最后，若生成的树出现过度拟合的状况，则要修剪那些缺乏价值的样本子集。

最受欢迎的见解

1.PYTHON用户流失数据挖掘：建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像

2.R语言基于树的方法：决策树，随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习：在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习：推荐系统实现（以矩阵分解来协同过滤）

9.python中用pytorch机器学习分类预测银行客户流失

标签：IBM,模型,样本,SPSS,随机,拆分,C5.0,决策树
From： https://www.cnblogs.com/tecdat/p/16960457.html

ecm ncm mibm
v>CDCCommunicationsDeviceClass连接设备配置CDMACodeDivisionMultipleAccess码分多址接入ECMEthernetNetworkingControlModel以太网控制模型GPSGlobal......
SAS，Stata，HLM，R，SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据|附代码数据
本文用于比较六个不同统计软件程序（SAS，Stata，HLM，R，SPSS和Mplus）的两级分层线性模型的过程和输出下面介绍的六个模型都是两级分层模型的变体，也称为多级模型，这是混合模型的特殊情......
数据中心服务器大战：思科vs惠普vsIBMvs戴尔
思科去过一直被视为一家纯粹的网络公司。在企业和服务提供商网络中，以及在路由器和交换机市场上，思科都占据着统治地位，拥有举足轻重的影响力。惠普曾经是思科的长期合作伙伴......
cpp mysql libmysqlcppconn-dev create table and insert multiple values into the t
//Util.h#pragmaonce#include<chrono>#include<ctime>#include<dirent.h>#include<fstream>#include<iostream>#include<thread>#include<unistd.h>#inc......
SAS，Stata，HLM，R，SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据|附代码数据
全文链接：http://tecdat.cn/?p=10809本文用于比较六个不同统计软件程序（SAS，Stata，HLM，R，SPSS和Mplus）的两级分层线性模型的过程和输出下面介绍的六个模型都是两级分层模型的变......
拓端tecdat|SPSS编程指导中的等级线性模型Multilevel linear models研究整容手术数据
SPSS中的等级线性模型Multilevellinearmodels研究整容手术数据我们将使用整容手术数据说明两种中心化类型。将此文件加载到SPSS中。假设我们......
拓端tecdat|采用SPSS Modeler编程指导的Web复杂网络对所有腧穴进行分析
采用SPSSModeler的Web复杂网络对所有腧穴进行分析背景：本次腧穴配伍关联规则分析，以针灸治疗FC的113例处方中使用频次在5次及以上的25种腧穴为关联......
【SPSS差异性分析】以正常体型人群仰卧的压力均值为例
【什么是F检验？】简单理解，t检验是两组均值比较的假设检验，P<0.05则表示两组均值存在显著差异。而F检验（一般更常称为方差分析analysisofvariance）就是多组均值是否相同的......
用SPSS估计HLM多层（层次）线性模型模型|附代码数据
原文链接：http://tecdat.cn/?p=3230作为第一步，从一个不包含协变量的空模型开始（点击文末“阅读原文”获取完整代码数据******** ）。每所学校的截距，β0J，然后设置为平......
IBM 360 系统之父、人月神话作者 Fred Brooks 去世
IBM360系统之父、人月神话作者FredBrooks去世来源:OSCHINA编辑: 白开水不加糖2022-11-1815:47:00 4美国计算机架构师、软件工程师和计算机科学家......

IBM SPSS Modeler分类决策树C5.0模型分析空气污染物数据