标签:架构 CrawlOrder settings Heritrix 笔记 org XMLSettingsHandler archive crawler
1、抓取起点CrawlOrder
在heritrix-
1.12.1
/docs/apidocs目录下可以查看其API:
org.archive.crawler.datamodel Class CrawlOrder java.lang.Object
javax.management.Attributeorg.archive.crawler.settings.Typeorg.archive.crawler.settings.ComplexTypeorg.archive.crawler.settings.ModuleTypeorg.archive.crawler.datamodel.CrawlOrder
|
从上图可看出,CrawlOrder继承自一系列与属性设置相关的基类。CrawlOrder中的属性,是需要被随时读取和监测的。
说明:一次抓取任务包括许多属性,建议一个任务的方式有很多种,最简单的一种就是根据默认的order.xml来配置。
1) 如何读取order.xml文件中的属性,并创建一个CrawlOrder对象?
org.archive.crawler.settings Class XMLSettingsHandler
org.archive.crawler.settings.XMLSettingsHandlerjava.lang.Objectorg.archive.crawler.settings.SettingsHandlerorg.archive.crawler.settings.XMLSettingsHandler
org.archive.crawler.settings.XMLSettingsHandler
|
Heritrix API提供了这样一个类XMLSettingsHandler,如下所示:
public XMLSettingsHandler(java.io.File orderFile)
throws javax.management.InvalidAttributeValueException
|
XMLSettingsHandler类的父类SettingsHandler定义了下面这个方法:
public CrawlOrder getOrder() {
return order;
}
|
其可返回一个CrawlOrder的实例。
标签:架构,
CrawlOrder,
settings,
Heritrix,
笔记,
org,
XMLSettingsHandler,
archive,
crawler
From: https://blog.51cto.com/u_2544485/7396900