首页 > 编程语言 >python-xpath,爬取猪八戒网(半成品)

python-xpath,爬取猪八戒网(半成品)

时间:2023-04-07 21:03:20浏览次数:56  
标签:xpath python text list 爬取 https div hall

数据未进行清洗


xpath   

/  层级关系

text()  拿文本

//    


python-xpath,爬取猪八戒网(半成品)_HTML

https://blog.csdn.net/KELLENSHAW/article/details/127877476


爬取

https://task.zbj.com/hall/list-all-0-p1?kw=HTML

python-xpath,爬取猪八戒网(半成品)_HTML_02

先定位小盒子的div

然后通过检查,

xpath://*[@id="hall-list-wrap"]/div[4]/div[1]/div[1]/div[1]/div[1]

大盒子的就是://*[@id="hall-list-wrap"]/div[4]/div[1]/div[1]/div[1]/div


然后就是通过遍历找到

标签=小盒子接下去的路径

价格

信息


遇到的困难就是写标签的时候不匹配


爬虫出现空列表或者长度为0是怎么回事?

https://blog.csdn.net/lzz781699880/article/details/81133398

[<Element div at 0x18c0fa23d00>]  这个错误,感觉我很常见

后来怎么解决忘记了


使用lxml时,报错ValueError:can only parse strings

python-xpath,爬取猪八戒网(半成品)_xml_03

https://blog.csdn.net/weixin_42994523/article/details/107748670


丢没有爬出来。。。

数据清洗不会。。。md这个列表不知道怎么搞


python-xpath,爬取猪八戒网(半成品)_HTML_04

# -*- coding = utf-8 -*-
# @Time : 2023/4/7 17:28
# @Author : 路人甲
# @File : 爬猪八戒.py
# @Software: PyCharm
from lxml import etree

import requests


url='https://task.zbj.com/hall/list-all-0-p1?kw=HTML'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.7 Safari/537.36'}
#对网站发起请求
page_test=requests.get(url=url, headers=headers)

# 爬取网址全部内容
# print(page_test.text)

# 这里是将从互联网上获取的源码数据加载到该对象中
tree=etree.HTML(page_test.text)


divs = tree.xpath('//*[@id="hall-list-wrap"]/div[4]/div[1]/div[1]/div[1]/div')

for list in divs:
    title = list.xpath('./a/div/div[1]/text()')
    price = list.xpath('./a/div/div[3]/text()')
    desc = list.xpath('./a/div/p/text()')
		
    print(price)


标签:xpath,python,text,list,爬取,https,div,hall
From: https://blog.51cto.com/u_15580157/6176541

相关文章

  • 基于Python的机器学习算法——sklearn模块
    基于Python的机器学习算法安装包:pipinstallnumpy#安装numpy包pipinstallsklearn#安装sklearn包importnumpyasnp#加载包numpy,并将包记为np(别名)importsklearn#加载sklearn包python中的基础包:numpy:科学计算的基础库,包括多维数组处理、线性代数等pandas:主......
  • 自动旋转ROS小车(rviz+urdf+xacro)(附加python操作键盘控制小车运动)
    自动旋转ROS小车(rviz+urdf+xacro)(附加python操作键盘控制小车运动)成果图STEP1创建工作空间mkdir-pcar_ws/srccdcar_wscatkin_makeSTEP2在vscode中准备需要的文件夹右键src,点击CreateCatkinPackage再跳出的输入框中:先输入包名:car再输入依赖工具:urdfx......
  • Python 虚拟环境迁移到其他电脑
    Python虚拟环境迁移到其他电脑 一、背景介绍在Python项目开发过程中,根据不同的项目场景,需要切换不同的Python版本。因此,我们经常会对不同的项目,创建特定的Python虚拟环境,实现项目环境间的“物理隔离”。本地创建Python虚拟环境,开发测试完项目功能,需要部署到现场环......
  • #指尖人生#Python常用模块:sys模块
    常用的属性: importsys sys.argv  命令行参数List,第一个元素是程序本身路径 sys.exit(n) 退出程序,正常退出时exit(0) sys.version 获取Python解释程序的版本信息 sys.maxint 最大的Int值 sys.path  返回模块的搜索路径,初始化时使用PYTHONPATH环境变量的值 sys.pla......
  • Python数据分析库介绍及引入惯例
    文章和代码等已经归档至【Github仓库:https://github.com/timerring/dive-into-AI】或者公众号【AIShareLab】回复python数据分析也可获取。python的缺点Python有一个叫做全局解释器锁(GlobalInterpreterLock,GIL)的组件,这是一种防止解释器同时执行多条Python字节码指令的机制。这......
  • DolphinDB +Python Airflow 高效实现数据清洗
    DolphinDB作为一款高性能时序数据库,其在实际生产环境中常有数据的清洗、装换以及加载等需求,而对于该如何结构化管理好ETL作业,Airflow提供了一种很好的思路。本篇教程为生产环境中ETL实践需求提供了一个解决方案,将PythonAirflow引入到DolphinDB的高可用集群中,通过使用Ai......
  • Python-文件基本操作
    """coding:utf-8@Software:PyCharm@Time:2023/4/616:59@author:Panda"""#文件基础3步骤:打开文件,写入或读文件,关闭文件,文件打开必定要关闭(close())"""data='好的'data_str='abc'res=data_str.encode('utf-8&#......
  • opencv-python 4.15. 基于分水岭算法的图像分割
    理论任何灰度图像都可以看作是地形表面,其中高强度表示峰和丘陵,而低强度表示山谷。你开始用不同颜色的水(标签)填充每个孤立的山谷(局部最小值)。随着水的上升,取决于附近的峰值(梯度),来自不同山谷的水,明显具有不同的颜色将开始融合。为避免这种情况,你需要在水合并的位置建立障碍。你继续......
  • 【python基础】五大数据类型及常用方法
    1.数据类型概述 python中的字符串,列表,元组,字典,集合这五种数据类型均是可迭代的,可以使用for循环访问,涵盖了三类数据结构分别为序列、散列、集合。序列: 字符串str 列表list() 元组tuple() 散列: 字典dict() 集......
  • python中的二分查找
    二分查找的前提是查找的数据按照顺序排序二分查找的核心思想是递归#arr:查找的对象#left:arr的左边界#right:arr的右边界#x:需要查找的数defbinary_search(arr,left,right,x):#左边界小于等于右边界ifleft<=right:#得到中位数mid=int((lef......