爬虫项目

爬虫项目

时间：2022-12-06 19:00:27浏览次数：50

标签：retry 浏览器项目 redis 爬虫解析资源

spring data flow，各个服务通过rocketmq来串联

springboot redis jpa Selenium bucket4j rocketmq jieba | es + hibernate search |

UrlManager:

　　管理需要采集的资源。

　　　　种子资源的初始化（根据条件参数生成种子资源）-> 创建过程中加分布式锁

资源的添加删除

资源的优先级管理（优先级队列，开始使用redis + redission，但是效率很低，使用了二分发去插入，数据量大的时候很慢）

资源的去重【布隆过滤器 redis + redission】

Downloader 【下载资源】

根据message header里面的资源类型选择不同的下载器：

为控制下载的频率，获取资源url时候使用RateLimter控制获取的频率。

HttpClientDownloader：

　　　　简单资源的采集（页面非异步加载，反爬虫弱），使用httpClient（jdk11（响应式（发布-订阅），非阻塞），OKHttp， apache httpclient）

SeleniumDownloader：

　　　　复杂资源（Selenium [səˈliːniəm]+ Chrome）：

因为 chrome的启动和销毁资源消耗比较大，所以用apache object pool写了个浏览器的资源池用来管理浏览器的生命周期

SeleniumDownloader的优化：资源加载速度的问题

　构建downLoader时候会传递：

ProxyManager【代理管理器】：

　　　　维护代理池，代理的生命周期

UAFactory：

生成动态的userAgent

　　AuthenticationManager【凭证管理器，基于一个分布式的存储后端redis】

管理登录过程中保存的凭证【cookie】

DownloadFailedExceptionHandler【异常处理的策略】（不同的异常使用不同的策略处理）：

反爬拦截（验证码，滑块）：先尝试操作浏览器解锁，不行就 wait 或者 kill

IOException：retry的逻辑 -> 先内部retry， retry还是失败回传给urlManager

DownloadSuccessHandler（函数）:

　　　　列表：解析的资源连接回传到urlManager模块

详情：传递到解析模块　　　

ContentParser[内容的解析模块]:

根据message的header路由不同的解析逻辑

通过xpath去搜索dom解析html

内容的持久化:

标签：retry,浏览器,项目,redis,爬虫,解析,资源
From： https://www.cnblogs.com/albertjay/p/16937994.html

爬虫学习-04
一、xpath的使用html中选择标签，可以使用的通用方式css选择xpath选择1.1介绍XPath即为XML路径语言（XMLPathLanguage），它是一种用来确定XML文档中某部分位置的语言，Scr......
Python异步爬虫（aiohttp版）
异步协程不太了解的话可以去看我上篇博客：https://www.cnblogs.com/Red-Sun/p/16934843.htmlPS：本博客是个人笔记分享，不需要扫码加群或必须关注什么的（如果外站需要加群或关......
爬虫从入门到入狱之入门（2）
1 css选择器bs4可以通过遍历，搜索，css选择器选择标签frombs4importBeautifulSouphtml_doc="""<html><head><title>TheDormouse'sstory</title></head><body>......
摹客RP，资源库可随项目同步离线导出！
Hello，小伙伴们，又到了摹客的新功能播报时间。本月更新，摹客RP在导出项目文件方面，可支持同步导出该项目的资源库，方便后续复用资源；摹客协作对任务管理模块进......
在windows下导入react项目并且打包编译后部署到nginx上
在windows下导入react项目并且打包编译后部署到nginx上一、安装npm二、创建react项目三、安装nginx四、总结最近接手了公司的一个django项目，这是应该前后端分......
Python全栈工程师之从网页搭建入门到Flask全栈项目实战(4) - Flask模板语法与继承
1.Flask模板介绍前置：理解渲染机制即上篇笔记中render_template()功能是如何实现的！1）找到html文件地址2）读取html文件中的内容3）替换html中的特殊字符4）将html的内容发送给......
软件项目管理包括哪些内容？
本文将分享：1、软件项目管理的定义；2、软件项目管理的过程步骤；3、软件项目管理的内容；4、软件项目估算与进度管理方法；5、软件开发各生命周期阶段与文档、角色间的关系；6、软......
项目中如何安装同一依赖的两个版本
背景如项目中有一个1.0版本的antd库，我们不得已必须使用更高版本的antd方案我们可以使用npm的别名，安装不同版本的库如：//安装npminstallantd-v3@npm:antd@3.26.19-......
Python3+pygame实现飞机大战游戏（免费完整项目）
版权声明：原创不易，本文禁止抄袭、转载，侵权必究！一、开发环境开发环境：Windows10 Python3.6.4第三方库：Pygame1.9.6IDE ：PyCharm/SublimeText ......
这个项目，必须退款！
认真、负责任、有态度！-随笔关于这个项目我接受你们的任何批评和指责。对这个项目做的这个决定，我十分内疚和自责，纵使感到万分不安，但还是必须要坦然的去面对。大家都知道，前段......

相关文章

赞助商

阅读排行