首页 > 编程语言 >超级详细的python爬虫

超级详细的python爬虫

时间:2023-06-20 16:08:07浏览次数:43  
标签:xpath python text 超级 tr 爬虫 players table td

    • 演示一个虎扑体育网站-NBA球员

1EAOJ9}_)O{(~1CSQDF3CNR.png

新手的话需要安装两个模块requests和lxml requests的作用:就是爬虫模块不断向浏览器发送请求 lxml的作用:模块可以利用XPath规则语法,来快速的定位HTML\XML 文档中特定元素以及获取节点信息


1.mport requests 2.from lxml import etree 3.url = 'https://nba.hupu.com/stats/players' 4.headers ={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 dg/114.0.1823.43'} 5.resp = requests.get(url,headers = headers) 6.e = etree.HTML(resp.text) 7.names = e.xpath('//table[@class="players_table"]//tr/td/a/text()') 8.print(names)

右键运行查看运行效果

QJPY(KZYZPTC6)CCRJPEKCM.png

解析响应的数据

nos = e.xpath('//table[@class="players_table"]//tr/td[1]/text()') names = e.xpath('//table[@class="players_table"]//tr/td[2]/a/text()') teams = e.xpath('//table[@class="players_table"]//tr/td[3]/a/text()') scores = e.xpath('//table[@class="players_table"]//tr/td[4]/text()')

for no,name,team,score in zip(nos,names,teams,scores): print(f'排名: {no} 姓名: {name} 球队:{team} 得分:{score}') 查看运行 image.png

标签:xpath,python,text,超级,tr,爬虫,players,table,td
From: https://blog.51cto.com/u_15947611/6523078

相关文章

  • 深入剖析爬虫与 SOCKS5 代理、代理 IP 的密切关系
    随着互联网的迅速发展,爬虫技术在数据收集和信息获取领域发挥着重要作用。然而,在进行爬取任务时,隐私保护和避免封锁限制是必不可少的考虑因素。本文将深入探讨爬虫与SOCKS5代理、代理IP的密切关系,揭示它们在保护隐私和实现高效数据收集方面的重要性,并探讨如何利用代理技术增强爬......
  • 爬虫代理ip使用时突然停了会如何
       当爬虫程序使用代理ip进行网络请求时,如果代理突然停了或出现其他问题,将会对程序的正常运行产生一定影响。下面我来介绍一下这种情况下可能出现的问题及解决方法。代理突然停止的影响 1.请求失败 当代理突然停止或无法连接时,爬虫程序将无法正常发送网络请求,导致请求......
  • Python 强制杀死运行中的多进程脚本
    本文所有教程及源码、软件仅为技术研究。不涉及计算机信息系统功能的删除、修改、增加、干扰,更不会影响计算机信息系统的正常运行。不得将代码用于非法用途,如侵立删!Python强制杀死运行中的多进程脚本,实现完全停止环境win10Pytho3.9获取当前脚本的进程id#获取当前进程......
  • requests爬虫实践之安居客二手房屋数据(python实现)
    1.先从安居客官网上淘到如下数据(详细方法可见博主爬取爱彼迎那篇博客):2.源码(警告:若频繁爬取安居客官网数据,将被要求入网验证…)importrequestsfrombs4importBeautifulSoupheaders={'user-agent':'Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,l......
  • Python开发系列课程(2) - 语言元素
    语言元素指令和程序计算机的硬件系统通常由五大部件构成,包括:运算器、控制器、存储器、输入设备和输出设备。其中,运算器和控制器放在一起就是我们通常所说的中央处理器,它的功能是执行各种运算和控制指令以及处理计算机软件中的数据。我们通常所说的程序实际上就是指令的集合,我们写程......
  • python 星号(*) 还能这么用
    哈喽大家好,我是咸鱼今天跟大家介绍一下python当中星号(*)的一些用法首先大家最常见的就是在python中*是乘法运算符,实现乘法sum=5*5#25除此之外,还有一种常见的用法就是*号操作符在函数中的用法单星号(*)在函数中用法举个例子,你有一个函数,用来实现两个数求和def......
  • Python进阶-上下文管理器
    上下文管理器定义包装任意代码确保执行的一致性语法with语句__enter__和__exit__方法classContextManager(object):def__init__(self):self.entered=Falsedef__enter__(self):self.entered=Truereturnself......
  • [python][图像切割]给定手写数字图片完成数字切割
    importtorchimporttorch.nnasnnfromtorchvisionimporttransformsfromPILimportImage,ImageOpsimportnumpyasnpimg=Image.open("QQ.png")imgdefCutImage(img):img=img.convert("L")threshold=128img=img.point(......
  • 【Fidder网络抓包+Python爬虫】下载微信小程序视频
    首先声明本篇博客以学习为目的,侵权即删。文章目录1.Fidder抓包1.1在电脑上打开微信小程序视频播放页以及Fidder软件1.2点击视频播放按钮,并查看Fidder抓到的数据包2.Python爬虫2.1视频下载2.2视频合并2.3完整代码3.写在最后1.Fidder抓包       关于fidder软件的安......
  • Python中获取路径/文件的父目录
    本教程将讲解在Python中获取一个路径的父目录的各种方法。父目录是指高于或高于给定目录或文件的目录。例如,路径 C:\folder\subfolder\myfile.txt 的父目录是 C:\folder\subfolder。除了根目录外,每个目录都有一个父目录。1、使用 pathlib 模块的 path.parent() 方法获......