使用DrissionPage自动化抓取Boss直聘网站数据

时间：2024-10-11 18:47:49浏览次数：12

标签：浏览器直聘抓取 Boss DrissionPage Recorder 数据 page

简介

在大数据时代，信息的获取和处理变得越来越重要。对于求职者而言，能够快速准确地获取招聘信息是至关重要的。本文将介绍如何使用DrissionPage库来自动化浏览并抓取招聘网站上的职位信息。我们将以Boss直聘为例，展示如何抓取与Python爬虫工程师相关的职位列表。

准备工作

在开始之前，请确保你的开发环境中安装了以下Python库：

drissionpage: 用于浏览器自动化操作。
json: Python标准库，用于处理JSON数据。
DataRecorder: 自定义或第三方库，用于记录数据到CSV文件。

你可以通过pip命令安装drissionpage：

pip install drissionpage -i https://pypi.tuna.tsinghua.edu.cn/simple

特别注意:由于它可以支持半自动化的,需要我们使用手机端的App去进行扫码登录才能够进行爬取数据

代码详解

导入必要的模块

首先，我们需要导入项目所需的库。

from DrissionPage import ChromiumPage  # 用于浏览器自动化操作
import json  # 用于处理JSON数据
from DataRecorder import Recorder  # 用于记录数据

初始化数据记录器

创建一个Recorder对象，指定要保存的数据文件路径以及缓存大小。

recorder = Recorder(path=r"./data.csv", cache_size=500)
recorder.add_data(['公司名称', '老板', '公司规模', '工作城市', '公司标签', '工作名称', '工作技能', '公司福利', '薪资'])

在这里插入图片描述

启动浏览器并访问目标页面

初始化ChromiumPage对象，并打开目标网站。

#打开浏览器
page = ChromiumPage()
#设置要监听的数据包
page.listen.start('wapi/zpgeek/search/joblist.json?scene=1&query=python')
#访问指定的招聘网站，并选择城市
page.get('https://www.zhipin.com/web/geek/job?query=python%E7%88%AC%E8%99%AB%E5%B7%A5%E7%A8%8B%E5%B8%88&city=100010000')
page.ele('x://span[@class="city-label"]').click()
page.wait.load_start()
page.ele('x://ul[@class="city-list-hot"]/li[1]').click()
page.wait.load_start()

在这里插入图片描述

数据抓取循环

这里我们进入一个无限循环，直到没有更多的页码为止。

i =

标签：浏览器,直聘,抓取,Boss,DrissionPage,Recorder,数据,page
From： https://blog.csdn.net/2301_78198846/article/details/142858500

（赠源码）Python+django+echars+MySQL+爬虫+大屏 boss直聘数据分析可视化系统的设计与实
摘要随着互联网的飞速发展和技术的不断进步，数据分析和可视化技术在各个领域都扮演着越来越重要的角色。在人才招聘领域，招聘平台作为连接求职者和招聘公司的重要平台，需要不断创新和提升服务体验。设计和实现一个boss直聘数据分析可视化系统，可以帮助BOSS直聘平台更好地利用数......
Jboss CVE-2017-12149 靶场攻略
漏洞简述该漏洞为Java反序列化错误类型，存在于Jboss的HttpInvoker组件中的ReadOnlyAccessFilter过滤器中。该过滤器在没有进⾏任何安全检查的情况下尝试将来⾃客户端的数据流进⾏反序列化，从⽽导致了漏洞漏洞范围JBoss5.x/6.x环境搭建cdvulhub-master/jboss/CVE-20......
基于Node.js+vue直面BOSS招聘管理系统(开题+程序+论文) 计算机毕业设计
本系统（程序+源码+数据库+调试部署+开发环境）带文档lw万字以上，文末可获取源码系统程序文件列表开题报告内容研究背景在当今竞争激烈的就业市场中，招聘与求职双方均面临着信息不对称、沟通效率低下的挑战。传统招聘方式往往依赖于线下招聘会、招聘网站的海量信息筛选，以及繁琐......
DrissionPage解决滑动验证
之前爬取某数据统计平台时遇到了相当严重的反爬机制，采用普通的Selenium也无法绕过。之前尝试过undetected_chromedriver可以使用，但无法设置无头模式，使用起来还是有一定的不美观性。正好近日学习了DrissionPage这款相当高效的工具，顺手掏出这个项目重构了一下。填输入数据相当简......
DrissionPage过5秒盾：反CloudFlare反爬
5秒盾实例偶尔有用的解决方式：curl_cffi可以实现一些简单的反5秒盾。pipinstallcurl_cffifromcurl_cffiimportrequestsascffi_requestsheaders={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/......
2024年华为OD机试E卷- Boss的收入-（Java&c++&Python）
题目描述：一个XX产品行销总公司，只有一个b0ss，其有若千一级分销，一级分销又有若干二级分销，每个分错只有唯一的上级分销。规定，每个月，下级分销需要将自己的总收入(自已的+下级上交的)每满100元上交15元给自己的上级现给出一组分销的关系，和每个分销的收入，请找出boss并计算出这个boss......