首页 > 编程语言 >【小白必看】Python爬取NBA球员数据示例

【小白必看】Python爬取NBA球员数据示例

时间:2023-10-18 16:07:09浏览次数:63  
标签:请求 示例 Python text 爬取 players HTML table requests

在这里插入图片描述

前言

使用 Python 爬取 NBA 球员数据的示例代码。通过发送 HTTP 请求,解析 HTML 页面,然后提取出需要的排名、姓名、球队和得分信息,并将结果保存到文件中。

导入需要的库和模块

在这里插入图片描述

import requests
from lxml import etree
  • 使用requests库发送HTTP请求。
  • 使用lxml库进行HTML解析。

设置请求头和请求地址

在这里插入图片描述

url = 'https://nba.hupu.com/stats/players'
headers ={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'
}
  • 设置请求头信息,包括用户代理(User-Agent)。
  • 设置请求的地址为'https://nba.hupu.com/stats/players'。

发送HTTP请求并获取响应

在这里插入图片描述

resp = requests.get(url, headers=headers)
  • 使用requests库发送HTTP GET请求,并传入请求地址和请求头信息。
  • 将返回的响应保存在变量resp中。

处理响应结果

在这里插入图片描述

e = etree.HTML(resp.text)
  • 使用etree.HTML函数将返回的响应文本解析为一个可操作的HTML元素树对象。
  • 将解析后的结果保存在变量e中。

解析数据

在这里插入图片描述

nos = e.xpath('//table[@class="players_table"]//tr/td[1]/text()')
names = e.xpath('//table[@class="players_table"]//tr/td[2]/a/text()')
teams = e.xpath('//table[@class="players_table"]//tr/td[3]/a/text()')
scores = e.xpath('//table[@class="players_table"]//tr/td[4]/text()')
  • 使用XPath表达式从HTML元素树中提取需要的数据。
  • 分别将排名(nos)、姓名(names)、球队(teams)和得分(scores)保存在对应的变量中。

将结果保存到文件

with open('nba.txt', 'w', encoding='utf-8') as f:
    for no, name, team, score in zip(nos, names, teams, scores):
        f.write(f'排名:{no} 姓名:{name}  球队:{team} 得分:{score}\n')
  • 打开一个文件nba.txt,以写入模式('w')进行操作,编码方式为UTF-8。
  • 使用zip函数同时遍历排名、姓名、球队和得分,将它们合并成一个元组。
  • 将每一行的数据按照指定格式写入文件中。

完整代码

# 引入 requests 库,用于发送 HTTP 请求
import requests
# 引入 lxml 库,用于解析 HTML
from lxml import etree

# 设置请求的地址
url = 'https://nba.hupu.com/stats/players'
# 设置请求头信息,包括用户代理(User-Agent)
headers ={ 
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'
}

# 发送HTTP GET请求,并传入请求地址和请求头信息,将返回的响应保存在变量resp中
resp = requests.get(url, headers=headers)

# 使用etree.HTML函数将返回的响应文本解析为一个可操作的HTML元素树对象
e = etree.HTML(resp.text)

# 使用XPath表达式从HTML元素树中提取需要的数据
nos = e.xpath('//table[@class="players_table"]//tr/td[1]/text()')
names = e.xpath('//table[@class="players_table"]//tr/td[2]/a/text()')
teams = e.xpath('//table[@class="players_table"]//tr/td[3]/a/text()')
scores = e.xpath('//table[@class="players_table"]//tr/td[4]/text()')

# 打开一个文件`nba.txt`,以写入模式('w')进行操作,编码方式为UTF-8
with open('nba.txt', 'w', encoding='utf-8') as f:
    # 使用zip函数同时遍历排名、姓名、球队和得分,将它们合并成一个元组
    for no, name, team, score in zip(nos, names, teams, scores):
        # 将每一行的数据按照指定格式写入文件中
        f.write(f'排名:{no} 姓名:{name}  球队:{team} 得分:{score}\n')

详细解析

# pip install requests
import requests

导入 requests 库,该库用于发送 HTTP 请求。

# pip install lxml
from lxml import etree

导入 lxml 库,该库用于解析 HTML。

# 发送的地址
url = 'https://nba.hupu.com/stats/players'

设置需要发送请求的地址。

headers ={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'}

设置请求头信息,包括用户代理(User-Agent)。这个信息告诉服务器我们的请求是从一个浏览器发出的,而不是爬虫,这样可以避免被反爬虫机制阻止。

# 发送请求
resp = requests.get(url,headers = headers)

使用 requests.get 方法发送 HTTP GET 请求,并传入请求地址和请求头信息。将返回的响应保存在变量 resp 中。

e = etree.HTML(resp.text)

使用 etree.HTML 函数将返回的响应文本解析为一个可操作的 HTML 元素树对象。etree.HTML 接受一个字符串类型的参数,这里使用 resp.text 来获取响应的文本内容。

nos = e.xpath('//table[@class="players_table"]//tr/td[1]/text()')
names = e.xpath('//table[@class="players_table"]//tr/td[2]/a/text()')
teams = e.xpath('//table[@class="players_table"]//tr/td[3]/a/text()')
scores = e.xpath('//table[@class="players_table"]//tr/td[4]/text()')

使用 XPath 表达式从 HTML 元素树中提取需要的数据。这里分别使用了四个 XPath 表达式来提取排名、姓名、球队和得分的数据,并将它们分别保存在 nosnamesteamsscores 变量中。

with open('nba.txt','w',encoding='utf-8') as f:
    for no,name,team,score in zip(nos,names,teams,scores):
        f.write(f'排名:{no} 姓名:{name}  球队:{team} 得分:{score}\n')

以写入模式('w')打开一个名为 nba.txt 的文件,并使用 UTF-8 编码。然后,使用 zip 函数同时遍历排名、姓名、球队和得分,将它们合并成一个元组。通过循环遍历每个元组,将每行的数据按照指定格式写入文件中。

这样,代码就实现了对 NBA 球员数据进行爬取,并将结果保存到 nba.txt 文件中。

运行效果

在这里插入图片描述

结束语

通过本文的示例代码,你可以学习使用Python爬取NBA球员数据的方法。我们使用了requests库发送HTTP请求,lxml库进行HTML解析,以及XPath表达式提取需要的数据。最后将结果保存到文件中。这个示例可以帮助你了解爬虫的基本原理和操作步骤,同时也能够获取到有关NBA球员的数据。希望本文对你理解和掌握Python爬虫技术有所帮助。

标签:请求,示例,Python,text,爬取,players,HTML,table,requests
From: https://blog.51cto.com/u_14522592/7918872

相关文章

  • 【小白必看】Python词云生成器详细解析及代码实现
    前言本文介绍了如何使用Python编写代码来生成词云图。在生成词云图之前,我们需要导入一些必需的库,包括numpy、wordcloud、PIL、matplotlib.pyplot和openpyxl。其中,numpy用于数据处理,wordcloud用于生成词云,PIL用于图像处理,matplotlib.pyplot用于在笔记本中显示图片,openpyxl用于读......
  • 【小白必看】Python爬虫实战之批量下载女神图片并保存到本地
    前言爬取网络上的图片是一种常见的需求,它可以帮助我们批量下载大量图片并进行后续处理。本文将介绍如何使用Python编写一个简单的爬虫,从指定网页中获取女神图片,并保存到本地。运行结果部分图片1.引入所需库首先需要导入两个库:requests用于发送网络请求,lxml用于解析......
  • 【小白必看】Python图片合成示例之使用PIL库实现多张图片按行列合成
    前言本文介绍了一个用于图片合成的Python代码示例。该代码使用了PIL库来处理图片文件,并通过嵌套循环将多张图片按照指定的行数和列数进行合成。最终生成的合成图片保存在本地。效果图1.导入必要的库fromPILimportImageimportos这段代码导入了PIL库中的Image模块,......
  • 【玩转python系列】【小白必看】使用Python爬虫技术获取代理IP并保存到文件中
    前言这篇文章介绍了如何使用Python爬虫技术获取代理IP并保存到文件中。通过使用第三方库requests发送HTTP请求,并使用lxml库解析HTML,我们可以从多个网页上获取IP、Port和地址信息。本文将逐步解析代码的每一部分,帮助读者更好地理解爬虫的工作原理。导入依赖库importrequ......
  • 【玩转Python系列】【小白必看】使用Python爬取双色球历史数据并可视化分析
    前言本文介绍了如何使用Python编程语言获取双色球历史数据,并使用数据可视化工具Matplotlib绘制了红球数量的折线图。通过对双色球历史数据的分析,我们可以更好地了解双色球的开奖规律和趋势。导入库importrequestsfromlxmlimportetreeimportcsvimportmatplotlib.pypl......
  • 【玩转Python系列【小白必看】Python多线程爬虫:下载表情包网站的图片
    前言本文主要介绍了使用Python编写的多线程爬虫程序,用于下载表情包网站上的图片。通过解析网页内容和使用XPath定位,可以获取到图片的URL,并将其保存到本地。1.导入模块和库importrequestsfromlxmlimportetreefromthreadingimportThreadfromqueueimportQueueim......
  • 【python】Python tkinter库实现重量单位转换器的GUI程序
    前言这段代码是一个简单的重量单位转换器的GUI程序,使用了Python的tkinter库来创建图形界面。该程序可以将输入的重量从千克转换为克、磅和盎司,并通过三个文本框分别显示转换后的结果。学到什么?使用tkinter库创建一个GUI窗口。tkinter是Python标准库中的一个模块,用于......
  • 【Python】Python 实现猜单词游戏——挑战你的智力和运气!
    前言大家好!欢迎来到我们精心准备的文字游戏世界。今天,我将向大家介绍一款有趣而又考验智力的游戏——猜单词游戏。在游戏中,你将面临一个神秘的单词,你需要凭借自己的智慧和运气来猜测这个单词是什么。每猜错一次,你将失去一条生命线,当生命线用尽时,你将面临失败。但只要你成功猜对了......
  • ERROR: The Python ssl extension was not compiled. Missing the OpenSSL lib?
    CentOS7pyenv安装Python3.10.13报错yuminstall-yopenssl-developenssl11-developenssl11-libCPPFLAGS="-I/usr/include/openssl11"LDFLAGS="-L/usr/lib64/openssl11-lssl-lcrypto"pyenvinstall-v3.10.13[root@Chatglm2-6B~]#pyenvversi......
  • Python Traceback:异常信息定位
    一、traceback模块简介traceback模块是Python标准库中的一个模块,提供了一些函数和类,用于获取和处理异常的跟踪信息。它可以帮助我们定位异常信息所在的代码位置,从而更好地调试和修复程序。 二、获取异常跟踪信息1.traceback.format_exc()函数在异常处理中,我们经常需要获取......