python在Scikit-learn中用决策树和随机森林预测NBA获胜者

时间：2024-05-08 20:22:44浏览次数：25

标签：比赛 python Scikit 主队 learn Home NBA 决策树

原文链接：http://tecdat.cn/?p=5222

原文出处：拓端数据部落公众号

在本文中，我们将以Scikit-learn的决策树和随机森林预测NBA获胜者。美国国家篮球协会（NBA）是北美主要的男子职业篮球联赛，被广泛认为是首屈一指的男子职业篮球联赛在世界上。它有30个队（美国29个，加拿大1个）。

在常规赛期间，每支球队打82场比赛，每场41场。一支球队每年会有四次面对对手（16场比赛）。每个小组在其四次（24场比赛）中的其他两个小组中的六个小组中进行比赛，其余四个小组三次（12场）进行比赛。最后，每个队都会在另一场比赛中两次参加所有的球队（30场比赛）。

用决策树和随机森林预测NBA获胜者


＃导入数据集并解析日期
df = pd.read_csv("NBA_regularGames.csv",parse_dates=["Date"])

从描述中，我们可以计算概率。在每场比赛中，主队和客队都有一半概率赢得比赛。

预测类

在下面的代码中，我们将指定我们的分类。这将帮助我们查看决策树分类的预测是否正确。如果主队获胜，我们将指定我们的等级为1，如果访客队在另一个名为“主队赢”的列中获胜，我们将指定为0。

df["Home Team Win"] = df["Visitor Points"] < df["Home Points"]

主队胜率：58.4％

数组现在拥有scikit-learn可以读取的格式。

特征工程

我们将创建以下功能来帮助我们预测NBA的获胜者。

无论是来访者还是主队都赢得了最后一场比赛。

哪个队更好？

scikit-learn软件包实现CART（分类和回归树）算法作为其默认决策树类

决策树实现提供了一种方法来停止构建树，以防止过度拟合：

•min_samples_split：可以创建任意叶子，以便在决策树中创建一个新节点。

•min_samples_leaf：保证从节点得到的叶子中的样本数量最少

建议使用min_samples_split或min_samples_leaf来控制叶节点处的采样数。非常小的数字通常意味着树将过度拟合，而大的数据将阻止树学习。

决策的另一个参数是创建决策的标准。基尼的不纯和信息收益是两种流行的：

•基尼：测量决策节点错误预测样本类别的频率

•信息增益：指示决策节点获得了多少额外信息

函数选择

我们通过指定我们希望使用的列并使用数据框视图的values参数，从数据集中提取要素以与我们的scikit-learn的DecisionTreeClassifier一起使用。我们使用cross_val_score函数来测试结果。

X_features_only = df [[ 'Home Win Streak' ，'Visitor Win Streak' ，'Home Team Ranks Higher' ，'Home Team Won Last' ，'Home Last Win' ，'Visitor Last Win' ]]

结果准确性：56.0％

有可能通过添加更多参数来提高准确性。

混淆矩阵显示了我们决策树的正确和不正确的分类。对角线1,295分别表示主队的真正获胜与否。左下角的1表示假阴性的数量。而右上角的195，误报的数量。我们也可以查看大约0.602的准确性分数，这表明决策树模型已经将60.2％的样本正确地归类为主队获胜与否。

导入pydotplus 图

出于探索的目的，较少数量的变量对获得决策树输出的理解会很有帮助。我们的第一个解释变量，主队获胜概率更高。如果主队排名低于4.5，那么主队输的概率更高。

如有任何问题、意见，请留言咨询

最受欢迎的见解

1.从决策树模型看员工为什么离职

2.R语言基于树的方法：决策树，随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习：在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习：推荐系统实现（以矩阵分解来协同过滤）

9.python中用pytorch机器学习分类预测银行客户流失

标签：比赛,python,Scikit,主队,learn,Home,NBA,决策树
From： https://www.cnblogs.com/tecdat/p/18180803

流畅的python学习笔记
示例1-1一摞有序的纸牌知识点：collections.namedtuple构建了一个简单的类，表示单张纸牌。fromcollectionsimportnamedtupleCard=namedtuple('Card',['rank','suit'])classFrenchDeck:ranks=[str(n)forninrange(2,11)]+list('JQKA')......
python 构建jenkins job
学习文档：https://www.cnblogs.com/hujinzhong/p/14593293.htmlhttps://blog.csdn.net/qq_45939519/article/details/121052408官方文档：API参考—PythonJenkins1.8.0文档(python-jenkins.readthedocs.io) 使用Python-Jenkins—PythonJenkins1.8.0文档 impor......
Python 将PDF转为PDF/A、PDF/X，以及PDF/A转回PDF
PDF/A和PDF/X是两种有特定用途的PDF格式，具体查看以下：PDF/A是一种用于长期存档的PDF格式，它旨在确保文档的内容和格式在未来的访问中保持不变。如果您需要对文件进行长期存档，比如法律文件或档案记录，将其转换为PDF/A格式是一个明智的选择。PDF/X是一种用于印刷输出的PDF格式，它旨在......
Python中级之数据类型的内置方法1(数字类型和字符串)
【一】数字类型【1】整数类型(int)（1）定义直接用整数定义，整数类型的值不能修改num=6（2）内置方法int.bit_length()#返回整数的二进制表示中最高位的位数，不包括符号和前导零。a=10b=a.bit_length()print(b)#输出4int.to_bytes(length,byteorder,signed)#......
Python安装教程手册(pip路径修改,建立模块搜索)
下载官网64位exe安装包双击安装,一步步往下走打开cmd命令行,输入Python-V查看安装版本号,检查是否安装成功输入pip-V查看pip的版本号,检查是否安装成功设置pip安装的全局库目录输入python-msite,查看当前默认配置的库目录找......
Python中级之数据类型的内置方法3(元祖、布尔、集合）
【一】元祖类型(tuple)【1】定义元祖类型是有序且不可变的数据类型，通常使用小括号定义（也可以使用逗号）#用逗号定义num_tuple=1,2,3,4,5#用小括号定义num_tuple=(1,2,3,4,5)【2】内置方法（1）类型强转#使用tuple()函数将其他数据类型转换为元组类型num_list=......
Python中级之数据类型的内置方法2(字典和列表）
【一】字符串类型的内置方法(熟悉)【1】查找（1）find方法#【1】默认从左到右开始查找，找得到则返回元素所在的索引位置name='ligo'str=name.find('i')print(str)#输出1#【2】也可在区间内寻找，找不到则返回-1str=name.find('g',3,4)print(str)#输出-1#【3】也......
Python中级之GC机制+字符编码+文件操作
【一】深浅拷贝【1】深浅拷贝问题如果是浅拷贝，只会复制一层，如果拷贝的对象中有可变数据类型，修改可变数据类型还会影响拷贝的对象如果是深拷贝，完整复制，无论可变或不可变，都是创建出新的来，无法怎么修改原对象，都不会对拷贝出的对象造成影响（1）浅拷贝对于原对象中的可变数据类型......
Python中级之异常处理+推导式
【一】异常处理【一】什么是异常异常是程序运行时可能发生的错误或意外情况当出现异常时，程序的正常流程会被中断，出现报错界面【二】异常分类在Python中异常分为内建异常和用户自定义异常【1】BaseException(所有异常的基类)SystemExit:解释器请求退出KeyboardInterru......
使用Python的DataFrame和duckdb查询PG数据库
直接使用以下脚本：importpsycopg2importduckdbimportpandasaspd#ConnecttoPostgreSQLconn_postgres=psycopg2.connect(dbname="pg_test_db",user="your_username",#Replacewithyourusernamepassword="your_password&qu......