首页 > 其他分享 >Scrapy_Request对象dont_filter演示

Scrapy_Request对象dont_filter演示

时间:2023-06-25 15:23:13浏览次数:37  
标签:baidu parse dont title self Request filter scrapy response

import scrapy


class BaiduSpider(scrapy.Spider):
    name = "baidu"
    allowed_domains = ["baidu.com"]
    start_urls = ["https://baidu.com"]

    def parse(self, response):
        title = response.xpath('//title/text()').get()
        print(title)
        yield scrapy.Request('https://baidu.com',callback=self.parse_info)

    def parse_info(self, response):
        title = response.xpath('//title/text()').get()
        print(title)
        yield scrapy.Request('https://baidu.com',callback=self.parse_info)

理论上是死循环

默认去重

import scrapy


class BaiduSpider(scrapy.Spider):
    name = "baidu"
    allowed_domains = ["baidu.com"]
    start_urls = ["https://baidu.com"]

    def start_requests(self):
        for url in self.start_urls:
            # dont_filter:取消去重    True继续访问,Falsa取消访问
            yield scrapy.Request(url, dont_filter=True)
    
    def parse(self, response):
        title = response.xpath('//title/text()').get()
        print(title)
        yield scrapy.Request('https://baidu.com',callback=self.parse_info)

    def parse_info(self, response):
        title = response.xpath('//title/text()').get()
        print(title)
        yield scrapy.Request('https://baidu.com',callback=self.parse_info)

 

标签:baidu,parse,dont,title,self,Request,filter,scrapy,response
From: https://www.cnblogs.com/jiangjiayun/p/17502989.html

相关文章

  • Invalid character found in the request target [/api/hsFile/download?filePath=E:
    java.lang.IllegalArgumentException:Invalidcharacterfoundintherequesttarget[/api/hsFile/download?filePath=E:\\%E4%B8%B4%E6%97%B6%E6%96%87%E4%BB%B6&fileName=N230508A0002.xlsx].ThevalidcharactersaredefinedinRFC7230andRFC39861、原因:/a......
  • requests Python中最好用的网络请求工具 基础速记+最佳实践
    简介requests模块是写python脚本使用频率最高的模块之一。很多人写python第一个使用的模块就是requests,因为它可以做网络爬虫。不仅写爬虫方便,在日常的开发中更是少不了requests的使用。如调用后端接口,上传文件,查询数据库等。本篇详细介绍requests的使用。requests是⽤Python......
  • Scrapy 中 Request 的使用
    爬虫中请求与响应是最常见的操作,Request对象在爬虫程序中生成并传递到下载器中,后者执行请求并返回一个Response对象一个Request对象表示一个HTTP请求,它通常是在爬虫生成,并由下载执行,从而生成Response参数url(string)-此请求的网址callback(callable)-将使用此请求的响......
  • 【js学习笔记四】数组双重去重的方式三filter
     目录前言导语运行结果总结前言   我是歌谣我有个兄弟巅峰的时候排名c站总榜19叫前端小歌谣曾经我花了三年的时间创作了他现在我要用五年的时间超越他今天又是接近兄弟的一天人生难免坎坷大不了从头再来歌谣的意志是永恒的放弃很容易但是坚持一定很酷导语   数组......
  • pycharm中的gihub copilot中报错Sign in failed. Reason: Request signInInitiate fai
    pycharm中的gihubcopilot中报错Signinfailed.Reason:RequestsignInInitiatefailedwithmessage:getaddri无法使用问题解决方法:idea打开我们的插件settings-plugins-找到插件,点击homepage插件主页跳出的页面下载对应pycharm的github copilot版本安装问题解决......
  • A potentially dangerous Request.Path value was detected from the client 异常
    我们在ASP.net4.0中使用URL导向后,我们在访问类似如下的地址一个面试题!********/,就会报错误: ApotentiallydangerousRequest.PathvaluewasdetectedfromtheclientatSystem.Web.HttpRequest.ValidateInputIfRequiredByConfig()  atSystem.Web.HttpApplication.Va......
  • 路由过滤器GatewayFilter
    GatewayFilter:是网关中提供的一种过滤器,可以对进入网关的请求和微服务返回的响应做处理: 过滤器工厂GatewayFilterFactory,Spring提供了31种不同的路由过滤器工厂。例:给所有进入userservice的请求添加一个请求头:Truth=itcastisfreakingawesome!server:port:10010spr......
  • ASP.NET Core MVC 从入门到精通之Filter
    随着技术的发展,ASP.NETCoreMVC也推出了好长时间,经过不断的版本更新迭代,已经越来越完善,本系列文章主要讲解ASP.NETCoreMVC开发B/S系统过程中所涉及到的相关内容,适用于初学者,在校毕业生,或其他想从事ASP.NETCoreMVC系统开发的人员。经过前几篇文章的讲解,初步了解ASP.NETCore......
  • net 中的 new RestRequest()代码举开发过程中实用的例子
    //创建一个RestClient对象varclient=newRestClient("http://api.openweathermap.org");//创建一个RestRequest对象varrequest=newRestRequest("/data/2.5/weather",Method.GET);//添加请求参数request.AddParameter("q","London");......
  • SpringMVC中接收前端传递的参数,设置了编码过滤器filter,但在控制台中还是出现乱码问题
    SpringMVC中接收前端传递的参数,设置了编码过滤器filter,但在控制台中还是出现乱码问题。 在SpringMVC中遇到乱码问题不要慌,先配个SpringMVC的自带编码过滤器试试 <filter><filter-name>CharacterEncodingFilter</filter-name><filter-class>org.spr......