Python爬虫-第三章-5-利用xpath爬取某八戒网相关词语公司的信息和价格

时间：2023-01-11 23:31:12浏览次数：48

标签：xpath domain Python text element 爬取 html div

# Demo Describe:数据解析 xpath 

import requests
from lxml import etree
from fake_useragent import UserAgent

'''
company
title
price
'''

# picType = input('输入想要爬取的词语： ')
# domain = f'https://www.zbj.com/search/f/?kw={picType}'
domain = 'https://www.zbj.com/search/f/?kw=saas'
ua = UserAgent()
user_agent = ua.random
headers = {
    'user-agent': user_agent
}
resp = requests.get(domain, headers=headers)
# get web html
html = etree.HTML(resp.text)
divs = html.xpath('/html/body/div[6]/div/div/div[2]/div[5]/div')
for element in divs:
    company = element.xpath('./div/div/div/a[1]/div[1]/p/text()')
    title = 'sass'.join(element.xpath('./div/div/div/a[2]/div[2]/div[2]/p/text()'))
    price = element.xpath('./div/div/div/a[2]/div[2]/div[1]/span[1]/text()')
    print(company)

标签：xpath,domain,Python,text,element,爬取,html,div
From： https://blog.51cto.com/mooreyxia/6002883

python excel转Markdown
使用Python，将Excel表格转成Markdown格式。废话不多说直接上代码。Excel文件的位置：D:\data\data.xlsx代码执行完成之后会在python文件所在的位置生成一个output.txt文件，......
Python实现冒泡排序、选择排序、插入排序
排序与搜索排序算法（英语：Sortingalgorithm）是一种能将一串数据依照特定顺序进行排列的一种算法。排序算法的稳定性稳定性：稳定排序算法会让原本有相等键值的纪录维持相对......
Python程序执行shell命令并关闭进程-总结
需求说明linux下，有时候我们用Python3执行一个shell命令，这会开启一个进程。但是这个进程可能能不会主动关闭（比如Linux下的ping指令会一直持续执行），我们希望这个进程执行指......
python+mysql—高效的数据处理方案
python+mysql——高效的数据处理方式使用场景大规模数据处理；多个任务可以并发执行；需要保存结果；为实现以上三个要求，就需要充分利用服务器中的多核资源，让程序高效并发执......
爬取研招网招生信息（一）
尝试用软件工程的方法做的一个“项目”，由于我也是考研人，所以想到这个，其实编码难度不大。可行性分析由于最近几年考研人数不断攀升，而查找信息是比较令考研学子头疼，但也十......
python读取cmd命令行
importosimportuiautomationasautoimportwin32clipboardasclipboardimportwin32condefgetCopy():clipboard.OpenClipboard()res=clipboard.GetC......
python学习_PIL的Image模块初步使用
基本介绍：Pillow是Python中较为基础的图像处理库，主要用于图像的基本处理，比如裁剪图像、调整图像大小和图像颜色处理等。与Pillow相比，OpenCV和Scikit-image的功能更......
python 类初始化的注意事项
自己写了一个Chessboard类：classChessboard(VGroup):def__init__(self,shape:tuple=(8,8),height:float=1,width:......
xpath爬取唐诗三百首
首页如图抓包工具显示如下点击作者后，转到详情页抓包工具显示如下、爬取代码如下1时间：2023/1/922:102功能描述34'''5importrequests6......
Python学习笔记-常用模块介绍--时间模块
1.时间模块分为哪三种格式？1.时间戳2.格式化字符串3.结构化时间 2.时间的示例#1.时间戳---常用于运算的print(time.time())#2.格式化字符串---用于显示，方......

Python爬虫-第三章-5-利用xpath爬取某八戒网相关词语公司的信息和价格

相关文章

赞助商

阅读排行