写了个简单爬虫，分析 Boss 直聘自动驾驶岗位

时间：2024-03-17 21:58:01浏览次数：27

标签：浏览器直聘 Selenium 爬虫 Boss chromedriver 网页

两年前，朋友想知道 Boss 直聘上关于自动驾驶的岗位有哪些，于是，笔者写了一个简单的爬虫 crawler-boss ，将岗位的信息收集起来。

这篇文章，笔者想分享爬虫 crawler-boss 的设计思路。

1 基本原理 Selenium + chromedriver

对于很多动态渲染的网页而言，想要抓取它的数据，就需要对网页的 JS 代码以及 Ajax 接口等进行分析。

而当 JS 代码混乱，难以分析，Ajax 的接口又含有很多加密参数的时候，就非常难以直接找出规律，那么上述过程会花费大量的时间和精力。

上图中， Boss 直聘接口参数比较多，笔者并不想花太多时间研究这些参数，于是笔者选择了另一种方案： Selenium + chromedriver 。

Selenium 是 web 浏览器自动化测试的工具，它可以模拟用户与所有主流浏览器之间的交互，比如点击，输入，抓取，拖拽等等。

但是 Selenium 与网络爬虫又有千丝万缕的关系，由于现在的网页大多采用是JavaScript动态渲染，使得爬虫返回的结果可能与用户实际看到的网页并不一致。我们看到的网页可能是经过Ajax加载，或者是JavaScript以及其他算法计算后生成的。

因此，我们可以使用 Selenium 直接模拟浏览器运行，我们肉眼看到的是什么样，能够抓取的数据就是什么样。

2 安装 chromedriver

WebDriver 是 Selenium 的核心组件，负责控制浏览器进行各种操作。WebDriver 可以通过不同的驱动程序与不同的浏览器进行通信，比如 ChromeDriver、FirefoxDriver 等。

1、查看当前Google浏览器版本

打开Google浏览器，网址栏输入：chrome://settings/help

2、下载对应版本的chromedriver

对照你的版本下载，当你使用的是 Chrome 版本 115 或更高版本，就点最上面的链接：

https://chromedriver.chromium.org/downloads/

找到你对应的版本，我这里是122.0.6261.129

下载完成之后，将文件解压后，拷贝到 /usr/local/bin/ 目录。

安装完 chromedriver 后，Java 应用中添加如下依赖：

<dependency>
    <groupId>org.seleniumhq.selenium</groupId>
    <artifactId>selenium-server</artifactId>
    <version>3.141.59</version>
</dependency>

然后通过如下代码，测试环境是否 OK 。

public static void main(String[] args) {
      WebDriver webDriver = new ChromeDriver();
      webDriver.get("https://juejin.cn");
}

点击运行，如果打开了掘金网页说明环境配置成功。

3 流程分析

1、进入搜索页面 , 搜索框中输入‘自动驾驶’

2、搜索结果若出现登录浮窗，则关闭，将页面中职位列表通过 class 截取出来，保存到数据库

3、点击下一页

4 写到最后

当我们将 Selenium 作为爬虫工具时，尽管它有很多优点，但也存在明显的缺点。

Selenium 模拟浏览器动作，除了加载需要的数据外，还会加载图片、JS、CSS等不必要的内容，导致网络资源和计算资源消耗增加，爬取速度变慢，爬取规模受限。

因此，长期大规模使用 Selenium 作为生产工具不是一个明智的选择。

然而，如果只是想在个人电脑上快速抓取少量数据，Selenium 确实是一个非常方便的工具。

最后， crawler-boss 的源码实现非常简单，假如同学们感兴趣，可以关注公众号，回复「爬虫」即可获取。

参考文档：

https://zhuanlan.zhihu.com/p/137710454

https://juejin.cn/post/7284318118993068051

如果我的文章对你有所帮助，还请帮忙点赞、在看、转发一下，你的支持会激励我输出更高质量的文章，非常感谢！

标签：浏览器,直聘,Selenium,爬虫,Boss,chromedriver,网页
From： https://www.cnblogs.com/makemylife/p/18079256

boss
importsubprocessimportreimportrequestsfromurllib.parseimporturlparse,parse_qsfromfunctoolsimportpartialsubprocess.Popen=partial(subprocess.Popen,encoding="utf-8")importexecjs获取security-checkurlparams={"query":......
爬虫实战爬取图片
最近喜欢存一些图片来当住头像或者背景图，接下来我们爬一下某网站的图片1.打开网站 1.1按f12点击network然后刷新一下2.双击一下3.这时候我们就可以写代码了把基础的先写上importrequestsproxy={'http':'122.9.101.6:8888'}h......
基于Unity3d的google小恐龙游戏8-------背景音乐与第六个BOSS
前言大家好，上一次unity练习记录中我添加了背景以及第五个boss，丰富了一下游戏内容，但是玩的时候发现好像有一些空洞，所以决定再次添加一些东西。本次练习主要是想要搞两个UI，以及背景音乐，然后再添加一个新的boss。其实我也很想再添加一些小怪，这些就是后话了。先把前面三个功能添加......
用python写网络爬虫：3.urllib库进一步的使用方法
文章目录异常处理URLErrorHTTPError设置超时时间链接的解析、构造、合并urlparse方法urlsplit方法urljoin方法urlencode方法parse_qs方法quote方法Robots协议Robots协议的结构解析协议参考书籍在上一篇文章：用python写网络爬虫：2.urllib库的基本用法已经介绍了如......
全栈的自我修养 ———— python爬虫爬取斗破苍穹小说并保存到文档里！看完保证会灵活使
如果赶时间请直接看第四大步中的源码，好好看完这篇博客，这里保证大家以后彻底搞懂获得一个网站怎么来爬取！！！！一、准备二、选入合适的爬取的目标1、如何看出网站做了反爬2、合适的网站三、理思路1、选择合适的页面2、选择合适的元素三、爬取1、获取所有章节的链接获取网站上......
macos selenium msedgedriver 浏览器驱动爬虫
MacOSSelenium跨浏览器环境搭建在macOS上使用Selenium启动新版Edge的方式如下。macOS版本：10.15.5Edge版本：83.0.478.58下载83版本对应的新版Edge驱动：https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/#downloads解压并移动到/usr/loca......
python爬虫的一些代码
你好，欢迎查看我的第5个笔记。这是本人为了保存一些代码而写的博客，由于精力实在有限，无法从头开始介绍爬虫相关的知识故仅仅罗列了几段代码案例 1.编写url管理器classUrlManager():"""url管理器罢了"""def__init__(self):self.new_urls=set()......
＜爬虫部署,进阶Docker＞----第二章安装Docker
前言:安装docker---本章是只针对windows的Docker! 如果你需要你就往下看,不需要就换频道~正文:1.安装Docker前配置a.开启虚拟化功能(VT) -如果你电脑有这个(虚拟化已启用) 直接跳过这一步;如果没有,那你就去对照自己电脑开启虚拟化; 相关链......
【笔记】Python爬虫之Xpath、BS4解析
1、Bs4解析#安装bs4importrequestsfrombs4importBeautifulSoup#1url=""resp=requests.get(url)#2.将请求到的数据变成BeautifulSoup对象sp=BeautifulSoup(resp.text,'lxml')#↑加.text↑固定lxml#————————————————......
最简单的python爬虫案例，适合入门学习
用python从网页爬取数据，网上相关文章很多，但能让零基础初学者轻松上手的却很少。可能是有的作者觉得有些知识点太简单不值得花费精力讲，结果是难者不会会者不难，初学者常常因此而蒙圈。本人也是小白，刚摸索着爬了两个简单的网页数据，经历了初学者易犯的各种糊涂，特总结分享一下，希......

写了个简单爬虫，分析 Boss 直聘自动驾驶岗位

1 基本原理 Selenium + chromedriver

2 安装 chromedriver

3 流程分析

4 写到最后

相关文章

赞助商

阅读排行