首页 > 其他分享 >第七周总结

第七周总结

时间:2023-08-19 12:55:05浏览次数:28  
标签:总结 网页 Nutch fetchlist 抓取 索引 工具 第七

   这周简单学习了一下Nutch爬取的内容。

简介

Apache的子项目之一,属于Lucene项目下的子项目。 Nutch是一个类似Google通用搜索引擎的解决方案,基于Hadoop任务的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。  总 体上Nutch可以分为2个部分:抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则对反向索引搜索回答用户的请求。抓取 程序和搜索程序的接口是索引,两者都使用索引中的字段。抓取程序和搜索程序可以分别位于不同的机器上,下面详细介绍一下抓取部分。

抓取过程

           抓取是一个循环的过程:抓取工具从WebDB中生成了一个 fetchlist 集合;抓取工具根据fetchlist从网络上下载网页内容;解析工具发现的新链接更新WebDB;然后再生成新的fetchlist;周而复始。这个抓 取循环在nutch中经常指: generate/fetch/parse/update 循环。     一般来说同一域名下的 url 链接会被合成到同一个 fetchlist。这样做的考虑是:当同时使用多个工具抓取的时候,不会产生重复抓取的现象。Nutch 遵循 Robots Exclusion Protocol, 可以用robots.txt 定义保护私有网页数据不被抓去。     上面这个抓取工具的组合是Nutch的最外层的,也可以直接使用更底层的工具,自己组合这些底层工具的执行顺序达到同样的结果。这是Nutch吸引人的地方。下面把上述过程分别详述一下,括号内就是底层工具的名字:
  1. 把开始抓取的跟Url 放入WebDb (inject)。
  2. 从WebDb的新 segment 中生成 fetchlist (generate)。
  3. 根据 fetchlist 列表抓取网页的内容 (fetch)。
  4. 根据抓取回来的网页链接url
  5. 更新 WebDB (updatedb)。
  6. 重复上面2-5个步骤直到到达指定的抓取层数。

功能 

  1. 基于Hadoop的分布式系统;
  2. 存储层剥离,支持存储HBase, Cassandra, MySql等数据库
  3. 基于插件式设计,扩展和定制比较方便
  4. 支持网页解析和索引,可以对接至Solr,搭建通用的搜索引擎

缺点

  1.  基于Hadoop开发,Windows下开发调试比较麻烦

标签:总结,网页,Nutch,fetchlist,抓取,索引,工具,第七
From: https://www.cnblogs.com/ZRGUGUGU818/p/17642341.html

相关文章

  • 8.14-8.20学习总结博客五:Hive进阶与复杂查询
    博客题目:学习总结五:Hive进阶与复杂查询实践内容概要:学习Hive进阶的使用方法,包括复杂查询、数据转换和性能优化等方面的知识。学习资源:推荐的Hive进阶教程、实践案例和性能优化技巧。实践内容:通过编写复杂的Hive查询语句,探索Hive的高级功能和性能优化方法,并分享实践中的挑战和解决......
  • 开源数据库Mysql_DBA运维实战 (总结)
    开源数据库Mysql_DBA运维实战(总结)SQL语句都包含哪些类型DDLDCLDMLDQLYum安装MySQL的配置文件配置文件:/etc/my.cnf日志目录:/var/log/mysqld.log错误日志:/var/log/mysql/error.logMySQL的主从切换查看主从复制状态停止主数据库的写入操作记录当前二级制日志文件和位置更新从数据库......
  • pytest + yaml 框架 -53.yaml 用例规范与全部关键字总结
    前言v1.4.4版本新增对yaml用例格式校验,不合法的用例格式不会被执行,避免出现用例格式不合法导致的报错。全部关键字总结config中可用关键字关键字可支持类型功能说明name可选str没什么用,仅描述当前yaml用例的名称base_url可选str,支持格式:http://、htt......
  • 8.18总结
    今天五点半起来,检查东西是否都带齐,今天奶奶也要做手术,希望能够快快好起来,中午一点多到学校,搬行李,累死个人,行李很重而且二教离九栋很远,累的我虚脱,晚上洗澡逃了培训会,然后和妈妈打电话询问奶奶情况,做了微创手术,过几天应该可以出院了,然后就找朋友玩了会,就睡觉了......
  • 2023.8.18A组模拟赛总结
    T1幂矩阵这题十分巧合。题目大意是有这样一个矩阵求该矩阵的逆矩阵中每项元素的平方和,手模几个点,会发现以下结论\[(P_n)^{-1}(i,j)=\begin{cases}i^m\binomij\quadi\geqj\\0\quadi<j\end{cases}\]不难发现我们的答案即是\[\sum_{i=1}^ni^{2m}\sum_{j=1}^i\bin......
  • # DP 题目总结
    DP题目总结1、LC1388.3n块披萨题意:3n的环形数组,每次取一个数后就删除前后相邻的两个数,问最后取得的总数最大是多少。分析:相当于不能取相邻数(打家劫舍问题),但这里是环形的,所以要拆成一个去掉第一个数的数组,一个去掉最后一个数的数组。算两次取最大值代码classSoluti......
  • 第三周 周博客总结
     这一周我主要应建民老师的要求观看了天道这个电视剧,对里面的剧情有了一个了解,我也明白老师让我们看这个电视剧对我们编程所带来的好处。我通过观看电视剧知道《天道》是一部备受瞩目的电视剧,它故事情节扣人心弦,演员的演技出色,以及对于价值观和人性的深刻思考,使得这部剧成为了......
  • 质数总结
    试除法判质数算法思想由于算法比较简单,就不再从朴素一步步进行优化了,直接写最终版本一个数n的约数都是成对存在的,且一个位于$\sqrt[2]{n}$前面,一个位于后面。所以只需要判断从2到$\sqrt[2]{n}$的数是不是约数即可代码实现/***线性筛(欧拉筛)核心:一个数只会被它的最小质......
  • 养娃这几年,我给挑选玩具总结了5点依据
    最近我把小店张罗好了,开始给大家团购一些这几年自用过的心水好物。第一次的团品我选择了积木条,上周开团了几款最心水的数学桌游(团期已经到最后1天了哦~),到现在这两款团品都收到了大家的很多好评和反馈。如果能用这些年的经验带大家在花钱的路上少走弯路,就是最让我开心的事情了。因为......
  • 总结python 元组和列表的区别
    python的基本类型中有元组和列表这么俩个,但是这哥俩却比较难于区分,今天就来用简单的实例说明两者的不同。列表:1.使用中括号([])包裹,元素值和个数可变实例:aaa=['sitename','www','pythontab','com']元组:1.使用中括号(())包裹,不可以被更改(尽管他们的内容可以)bbb=['sitename','www','py......