超级详细的python爬虫

时间：2023-06-20 16:08:07浏览次数：48

标签：xpath python text 超级 tr 爬虫 players table td

- 演示一个虎扑体育网站-NBA球员

$1EAOJ9}_)O{(~1CSQDF3CNR.png$

新手的话需要安装两个模块requests和lxml requests的作用：就是爬虫模块不断向浏览器发送请求 lxml的作用：模块可以利用XPath规则语法，来快速的定位HTML\XML 文档中特定元素以及获取节点信息

1.mport requests 2.from lxml import etree 3.url = 'https://nba.hupu.com/stats/players' 4.headers ={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 dg/114.0.1823.43'} 5.resp = requests.get(url,headers = headers) 6.e = etree.HTML(resp.text) 7.names = e.xpath('//table[@class="players_table"]//tr/td/a/text()') 8.print(names)

右键运行查看运行效果

QJPY(KZYZPTC6)CCRJPEKCM.png

解析响应的数据

nos = e.xpath('//table[@class="players_table"]//tr/td[1]/text()') names = e.xpath('//table[@class="players_table"]//tr/td[2]/a/text()') teams = e.xpath('//table[@class="players_table"]//tr/td[3]/a/text()') scores = e.xpath('//table[@class="players_table"]//tr/td[4]/text()')

for no,name,team,score in zip(nos,names,teams,scores): print(f'排名: {no} 姓名: {name} 球队:{team} 得分:{score}') 查看运行

标签：xpath,python,text,超级,tr,爬虫,players,table,td
From： https://blog.51cto.com/u_15947611/6523078

深入剖析爬虫与 SOCKS5 代理、代理 IP 的密切关系
随着互联网的迅速发展，爬虫技术在数据收集和信息获取领域发挥着重要作用。然而，在进行爬取任务时，隐私保护和避免封锁限制是必不可少的考虑因素。本文将深入探讨爬虫与SOCKS5代理、代理IP的密切关系，揭示它们在保护隐私和实现高效数据收集方面的重要性，并探讨如何利用代理技术增强爬......
爬虫代理ip使用时突然停了会如何
当爬虫程序使用代理ip进行网络请求时，如果代理突然停了或出现其他问题，将会对程序的正常运行产生一定影响。下面我来介绍一下这种情况下可能出现的问题及解决方法。代理突然停止的影响 1.请求失败当代理突然停止或无法连接时，爬虫程序将无法正常发送网络请求，导致请求......
Python 强制杀死运行中的多进程脚本
本文所有教程及源码、软件仅为技术研究。不涉及计算机信息系统功能的删除、修改、增加、干扰，更不会影响计算机信息系统的正常运行。不得将代码用于非法用途，如侵立删！Python强制杀死运行中的多进程脚本，实现完全停止环境win10Pytho3.9获取当前脚本的进程id#获取当前进程......
requests爬虫实践之安居客二手房屋数据（python实现）
1.先从安居客官网上淘到如下数据（详细方法可见博主爬取爱彼迎那篇博客）：2.源码（警告：若频繁爬取安居客官网数据，将被要求入网验证…）importrequestsfrombs4importBeautifulSoupheaders={'user-agent':'Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,l......
Python开发系列课程(2) - 语言元素
语言元素指令和程序计算机的硬件系统通常由五大部件构成，包括：运算器、控制器、存储器、输入设备和输出设备。其中，运算器和控制器放在一起就是我们通常所说的中央处理器，它的功能是执行各种运算和控制指令以及处理计算机软件中的数据。我们通常所说的程序实际上就是指令的集合，我们写程......
python 星号(*) 还能这么用
哈喽大家好，我是咸鱼今天跟大家介绍一下python当中星号（*）的一些用法首先大家最常见的就是在python中*是乘法运算符，实现乘法sum=5*5#25除此之外，还有一种常见的用法就是*号操作符在函数中的用法单星号（*）在函数中用法举个例子，你有一个函数，用来实现两个数求和def......
Python进阶-上下文管理器
上下文管理器定义包装任意代码确保执行的一致性语法with语句__enter__和__exit__方法classContextManager(object):def__init__(self):self.entered=Falsedef__enter__(self):self.entered=Truereturnself......
[python][图像切割]给定手写数字图片完成数字切割
importtorchimporttorch.nnasnnfromtorchvisionimporttransformsfromPILimportImage,ImageOpsimportnumpyasnpimg=Image.open("QQ.png")imgdefCutImage(img):img=img.convert("L")threshold=128img=img.point(......
【Fidder网络抓包+Python爬虫】下载微信小程序视频
首先声明本篇博客以学习为目的，侵权即删。文章目录1.Fidder抓包1.1在电脑上打开微信小程序视频播放页以及Fidder软件1.2点击视频播放按钮，并查看Fidder抓到的数据包2.Python爬虫2.1视频下载2.2视频合并2.3完整代码3.写在最后1.Fidder抓包关于fidder软件的安......
Python中获取路径/文件的父目录
本教程将讲解在Python中获取一个路径的父目录的各种方法。父目录是指高于或高于给定目录或文件的目录。例如，路径 C:\folder\subfolder\myfile.txt 的父目录是 C:\folder\subfolder。除了根目录外，每个目录都有一个父目录。1、使用 pathlib 模块的 path.parent() 方法获......

超级详细的python爬虫

演示一个虎扑体育网站-NBA球员

右键运行查看运行效果

解析响应的数据

相关文章

赞助商

阅读排行