Heritrix架构学习笔记（一）

时间：2023-09-07 14:36:03浏览次数：45

标签：架构 CrawlOrder settings Heritrix 笔记 org XMLSettingsHandler archive crawler

1、抓取起点CrawlOrder

在heritrix- 1.12.1 /docs/apidocs目录下可以查看其API：

org.archive.crawler.datamodel Class CrawlOrder `java.lang.Object javax.management.Attributeorg.archive.crawler.settings.Typeorg.archive.crawler.settings.ComplexTypeorg.archive.crawler.settings.ModuleTypeorg.archive.crawler.datamodel.CrawlOrder`

从上图可看出，CrawlOrder继承自一系列与属性设置相关的基类。CrawlOrder中的属性，是需要被随时读取和监测的。

说明：一次抓取任务包括许多属性，建议一个任务的方式有很多种，最简单的一种就是根据默认的order.xml来配置。

1）如何读取order.xml文件中的属性，并创建一个CrawlOrder对象?

org.archive.crawler.settings Class XMLSettingsHandler `org.archive.crawler.settings.XMLSettingsHandlerjava.lang.Objectorg.archive.crawler.settings.SettingsHandlerorg.archive.crawler.settings.XMLSettingsHandler org.archive.crawler.settings.XMLSettingsHandler`

org.archive.crawler.settings
Class XMLSettingsHandler


org.archive.crawler.settings.XMLSettingsHandlerjava.lang.Objectorg.archive.crawler.settings.SettingsHandlerorg.archive.crawler.settings.XMLSettingsHandler
org.archive.crawler.settings.XMLSettingsHandler

Heritrix API提供了这样一个类XMLSettingsHandler，如下所示：

`public XMLSettingsHandler(java.io.File orderFile) throws javax.management.InvalidAttributeValueException`

XMLSettingsHandler类的父类SettingsHandler定义了下面这个方法：

`public CrawlOrder getOrder() { return order; }`

其可返回一个CrawlOrder的实例。

标签：架构,CrawlOrder,settings,Heritrix,笔记,org,XMLSettingsHandler,archive,crawler
From： https://blog.51cto.com/u_2544485/7396900

heritrix配置篇
目前对Heritrix做了初步选型测试，有了一些总结：1.关于安装：目前的版本号为1.12.1，官网地址为 http://crawler.archive.org/。常规安装，即解压到相关目录，之后配置系统环境变量"HERITRIX_HOME"到该解压目录（Java环境已经配置好）。2.安装的后续工作：将%HERIT......
[个人笔记][C#]异步调用控制流的一些测试结论
await调用逻辑总结如下：调用线程A执行到await时，在await处返回并继续执行调用点后面的代码，await处新开一个线程B执行task线程B执行完task后继续执行await后面的代码如果再次遇到await，线程B在await处返回，新开一个线程C执行task线程C执行完task后继续执行await后面的代码"新开......
sqlserver移植为Oracle笔记（更新，新增字段名；批量新增记录；日期查询；截取字串函数）
下面是这两天在项目要sqlserver和oracle兼容的改造中测试出来的笔记：--sqlserver--更改主键字段名'ID'为'ID_'sp_rename 'tb_doc_cat_statistic.ID','ID_','column'--新增字段cat_codealtertabletb_doc_cat_statisticaddcat_codevarchar(100) --oracle--......
【刷题笔记】
题目Givenacollectionofcandidatenumbers(candidates)andatargetnumber(target),findalluniquecombinationsin candidates wherethecandidatenumberssumsto target.Eachnumberin candidates mayonlybeused once inthecombination.Note:All......
RK3568开发笔记（七）：在宿主机ubuntu上搭建Qt交叉编译开发环境，编译一个Demo，目标板运行Demo
前言在之前的博文中已经搭建好了一个比较完善的ubuntu宿主机，都很完善了但是发现没有Qt交叉编译开发环境，所以还需要搭建一套Qt交叉编译开发环境。<br>补充说明本篇是基于《RK3568开发笔记（三）：RK3568虚拟机基础环境搭建之更新源、安装网络工具、串口调试、网络连接、文件传......
智能车---stc8学习笔记1
采集状态,调整车身--控制电机,传感器获取偏差信息,根据控制逻辑实现电机驱动,采集决策执行电源电路,稳压电路,保护时钟电路,给单片机提供时钟,心跳,而且确定了单片机工作的速度复位电路,上电重启串行是一串一串发送数据定时器:很多事情不是来了才做,有......
RK3568开发笔记（七）：在宿主机ubuntu上搭建Qt交叉编译开发环境，编译一个Demo，目标板运行Demo
前言在之前的博文中已经搭建好了一个比较完善的ubuntu宿主机，都很完善了但是发现没有Qt交叉编译开发环境，所以还需要搭建一套Qt交叉编译开发环境。补充说明本篇是基于《RK3568开发笔记（三）：RK3568虚拟机基础环境搭建之更新源、安装网络工具、串口调试、网络连接、......
Sermant类隔离架构解析——解决JavaAgent场景类冲突的实践
一、JavaAgent场景为什么要注意类冲突问题？类冲突问题并非仅存在于JavaAgent场景中，在Java场景中一直都存在，该问题通常会导致运行时触发NoClassDefFoundError、ClassNotFoundException、NoSuchMethodError等异常。从使用场景来看，基于JavaAgent技术所实现的工具，往往用于监控、治理等场......
Upload靶场通关笔记-特殊解析后缀
特殊解析后缀提示本pass禁止上传.asp|.aspx|.php|.jsp后缀文件！ //后缀黑名单//t用于删除字符串的头尾空白符，空白符包括：空格、制表符tab、换行符等其他空白符等。//函数用于查找某字符在字符串中最后一次出现的位置将最后一个点前面的内容全部删掉 php......
C++学习笔记
++--自增自减运算符1++ 赋值运算符,;运算符选择语句if----elseif(表达式1){代码块；//表达式1为真执行该代码块}elseif(表达式2){代码块；//表达式2为真执行该代码块的内容}else{代码块；//以上的表达式都不满足执行该代码块的内容}switch多分支语句#include<st......

Heritrix架构学习笔记（一）

1、抓取起点CrawlOrder

org.archive.crawler.datamodel
Class CrawlOrder

org.archive.crawler.settings
Class XMLSettingsHandler

相关文章

赞助商

阅读排行

Heritrix架构学习笔记（一）

1、抓取起点CrawlOrder

org.archive.crawler.datamodel Class CrawlOrder

org.archive.crawler.settings Class XMLSettingsHandler

相关文章

赞助商

阅读排行

org.archive.crawler.datamodel
Class CrawlOrder

org.archive.crawler.settings
Class XMLSettingsHandler