首页 > 编程语言 >Python爬虫-第三章-5-利用xpath爬取某八戒网相关词语公司的信息和价格

Python爬虫-第三章-5-利用xpath爬取某八戒网相关词语公司的信息和价格

时间:2023-01-11 23:31:12浏览次数:47  
标签:xpath domain Python text element 爬取 html div

# Demo Describe:数据解析 xpath 

import requests
from lxml import etree
from fake_useragent import UserAgent

'''
company
title
price
'''

# picType = input('输入想要爬取的词语: ')
# domain = f'https://www.zbj.com/search/f/?kw={picType}'
domain = 'https://www.zbj.com/search/f/?kw=saas'
ua = UserAgent()
user_agent = ua.random
headers = {
    'user-agent': user_agent
}
resp = requests.get(domain, headers=headers)
# get web html
html = etree.HTML(resp.text)
divs = html.xpath('/html/body/div[6]/div/div/div[2]/div[5]/div')
for element in divs:
    company = element.xpath('./div/div/div/a[1]/div[1]/p/text()')
    title = 'sass'.join(element.xpath('./div/div/div/a[2]/div[2]/div[2]/p/text()'))
    price = element.xpath('./div/div/div/a[2]/div[2]/div[1]/span[1]/text()')
    print(company)


标签:xpath,domain,Python,text,element,爬取,html,div
From: https://blog.51cto.com/mooreyxia/6002883

相关文章

  • python excel转Markdown
    使用Python,将Excel表格转成Markdown格式。废话不多说直接上代码。Excel文件的位置:D:\data\data.xlsx代码执行完成之后会在python文件所在的位置生成一个output.txt文件,......
  • Python实现冒泡排序、选择排序、插入排序
    排序与搜索排序算法(英语:Sortingalgorithm)是一种能将一串数据依照特定顺序进行排列的一种算法。排序算法的稳定性稳定性:稳定排序算法会让原本有相等键值的纪录维持相对......
  • Python程序执行shell命令并关闭进程-总结
    需求说明linux下,有时候我们用Python3执行一个shell命令,这会开启一个进程。但是这个进程可能能不会主动关闭(比如Linux下的ping指令会一直持续执行),我们希望这个进程执行指......
  • python+mysql—高效的数据处理方案
    python+mysql——高效的数据处理方式使用场景大规模数据处理;多个任务可以并发执行;需要保存结果;为实现以上三个要求,就需要充分利用服务器中的多核资源,让程序高效并发执......
  • 爬取研招网招生信息(一)
    尝试用软件工程的方法做的一个“项目”,由于我也是考研人,所以想到这个,其实编码难度不大。可行性分析由于最近几年考研人数不断攀升,而查找信息是比较令考研学子头疼,但也十......
  • python读取cmd命令行
    importosimportuiautomationasautoimportwin32clipboardasclipboardimportwin32condefgetCopy():clipboard.OpenClipboard()res=clipboard.GetC......
  • python学习_PIL的Image模块初步使用
    基本介绍:Pillow是Python中较为基础的图像处理库,主要用于图像的基本处理,比如裁剪图像、调整图像大小和图像颜色处理等。与Pillow相比,OpenCV和Scikit-image的功能更......
  • python 类初始化的注意事项
    自己写了一个Chessboard类:classChessboard(VGroup):def__init__(self,shape:tuple=(8,8),height:float=1,width:......
  • xpath爬取唐诗三百首
    首页如图抓包工具显示如下  点击作者后,转到详情页抓包工具显示如下、 爬取代码如下1时间:2023/1/922:102功能描述34'''5importrequests6......
  • Python学习笔记-常用模块介绍--时间模块
    1.时间模块分为哪三种格式?1.时间戳2.格式化字符串3.结构化时间 2.时间的示例#1.时间戳---常用于运算的print(time.time())#2.格式化字符串---用于显示,方......