首页 > 其他分享 >CrawlSpider(全站数据爬取)

CrawlSpider(全站数据爬取)

时间:2023-02-22 12:11:06浏览次数:59  
标签:全站 CrawlSpider 爬取 scrapy 数据 链接

CrawlSpider(全站数据爬取)

  • 实现网站的全站数据爬取

    • 就是将网站中所有页码对应的页面数据进行爬取。
  • crawlspider其实就是scrapy封装好的一个爬虫类,通过该类提供的相关的方法和属性就可以实现全新高效形式的全站数据爬取。

  • 使用流程:

    • 新建一个scrapy项目

    • cd 项目

    • 创建爬虫文件(*):

      • scrapy genspider-t crawl spiderName www.xxx.com

      • 爬虫文件中发生的变化有哪些?

        • 当前爬虫类的父类为CrawlSpider

        • class JianliSpider(CrawlSpider):
          
        • 爬虫类中多了一个类变量叫做rules

        • link = LinkExtractor(allow=r"free_\d+\.html")
          
          rules = (Rule(link, callback="parse_item", follow=False))
          
          • LinkExtractor:链接提取器
            • 可以根据allow参数表示的正则在当前页面中提取符合正则要求的链接
          • Rule:规则解析器
            • 可以接收链接提取器提取到的链接,并且对每一个链接进行请求发送
            • 可以根据callback指定的回调函数对每一次请求到的数据进行数据解析

标签:全站,CrawlSpider,爬取,scrapy,数据,链接
From: https://www.cnblogs.com/dream-ze/p/17143922.html

相关文章

  • 爬取动态canvas
    之前做爬取动态canvas是用selenuim写的效果很不了理想由于时间关系,让前端渲染截图转为base64发送到后端 最近比较有空 在网上找到了无头浏览器 phantomjs 能......
  • 爬取网页时,出现json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (ch
    最近在学习Django时,进行网站爬取资源训练时,出现错误  1.错误原因分析我的代码如图 在网上找了很多资料之后,发现好像是网站设置了防火墙啥的,不能直接通过URL进行......
  • NodeJS:使用 superagent 和 cheerio 爬取网页
    安装依赖:npminstallsuperagentcheerio--save同步代码:constsuperagent=require('superagent')constcheerio=require('cheerio')constfs=require('fs')f......
  • Python爬虫-第五章-2-爬取某网站图库
    技术点  1.requests  2.beautifulSoupps:程序可扩展  1.比如翻页下载  2.下拉加载更多可以用selenium  3.多线程或者异步协程提升下载效率 ......
  • 爬取url遇到302跳转问题怎么解决?
    最近在做爬虫项目遇到一个问题,这里简单的描述下让大家帮忙看下。目标网站需要完成一一系列登录操作,经过抓包测试只需要使用简单的post请求后收到的回包中包含cookie信息,因此......
  • 2023爬虫学习笔记 -- 批量爬取图片
    一、目标网址http://img.itlun.cn/uploads/allimg/180703/1-1PF3160531-lp.jpg二、右击图片获取图片地址http://img.itlun.cn/uploads/allimg/180703/1-1PF3160531-lp.jpg......
  • 新闻文本爬取和分类_代码
    目录1机器学习sklearn新闻文本分类2深度学习MLP新闻文本分类3新闻文本爬取1机器学习sklearn新闻文本分类importpandasaspdimportjiebafromsklearn.feature_ex......
  • scrapy爬取图片
    classFctpItem(scrapy.Item):#definethefieldsforyouritemherelike:image_urls=scrapy.Field()images=scrapy.Field()fromscrapy.pipeli......
  • Python+Selenium爬取招聘岗位详情信息------2023年2月有效!!!
    最近学习了一些爬虫的知识,尝试爬取招聘类网站的岗位信息,由于这种类型的网站不像某瓣电影一样,它的内容可能比较敏感,开发者小哥哥们可能不太愿意我们过度爬取他们的数据用于......
  • python实现百度贴吧页面爬取
    importrequestsclassTiebaSpider:"""百度贴吧爬虫类"""def__init__(self,tieba_name)->None:self.tieba_name=tieba_nameself.ur......