scrapy框架之item与pipelines

时间：2022-09-24 12:14:41浏览次数：85

标签：pipelines self 爬虫 item scrapy authors

继续以起点小说为例子，我们要做的就是把对象存储到item（类似于一个字典）中，在通过pipelines持久化到txt文件中。
之前我们在运行爬虫的后面加“-o 爬虫名称” 这样很方便，但是也有很多的弊端，比如只能存为特定的格式，像txt这种就不可以。同时在使用pipelines存储前可以写一些存储前的操作。没有看过存储的小伙伴可以看一下这篇文章scrapy框架之生成存储文件json，xml、csv文件,废话不多说，直接开始！！

写item类

上次我们起点小说爬到是书名和作者，所以我们定义一个书名和作者。

import scrapy

class QidianItem(scrapy.Item):
     bookName = scrapy.Field()
     authors = scrapy.Field()

编写爬虫文件

我们要在爬虫文件中实例化Item对象，在把爬到的值赋值给item

import scrapy
from qidian.items import QidianItem

class QidianspiderSpider(scrapy.Spider):
    name = 'qidianspider'
    allowed_domains = ['www.qidian.com']
    start_urls = ['https://www.qidian.com/rank/yuepiao/']
    def parse(self, response):
        names = response.xpath('//*[@id="book-img-text"]/ul/li[1]/div[2]//a/text()').extract()
        authors = response.xpath('//*[@id="book-img-text"]/ul/li[1]/div[2]//text()').extract()
        item = QidianItem() #实例化对象 
        for name,author in zip(names,authors):
           item['bookName'] = name #把值添加到item对象中 
           item['authors'] = author
           yield item #提交到管道

在settings文件中开启管道

记得要关闭ROBOTSTXT_OBEY，写好UA伪装，不懂得可以看scrapy框架之创建项目运行爬虫

ITEM_PIPELINES = {
   'qidian.pipelines.QidianPipeline': 300,
}

简单测试一下看是否正确

在pipelines文件中写

class QidianPipeline:
    def process_item(self, item, spider):
        print(item)
        return item

在管道中打印一下item，看否把数据提交到了管道，看到下图就表示成功把数据投入管道中

正式编写pipelines文件

class QidianPipeline(object):
    def open_spider(self,spider):
        self.fp = open('my.txt','w',encoding='utf-8')
        print('爬虫开始~~')
    def process_item(self, item, spider):
        name = item['bookName']
        authors = item['authors']
        self.fp.write('书名：'+ name + '|' + '作者：' + authors + '\n')
        return item
    def close_spider(self, spider):
        self.fp.close()
        print('爬虫结束~~')

编写方法运行

from scrapy.cmdline import execute
execute('scrapy crawl qidianspider'.split())

成果展示

标签：pipelines,self,爬虫,item,scrapy,authors
From： https://www.cnblogs.com/yousuobutong/p/16725317.html

scrapy框架之生成存储文件json，xml、csv文件
以起点小说网举例子网址https://www.qidian.com/rank/yuepiao/默认大家已经生成好scrapy项目了，如果不会请参考我之前的文章scrapy框架之创建项目运行爬虫爬取网页获......
scrapy框架之创建项目运行爬虫
创建scrapyscrapystartproject项目名称创建蜘蛛（爬虫文件）scrapygenspider蜘蛛名称网址爬取网页（举百度的列子）编写爬虫文件importscrapyclassBaiduSpider(......
39. [实例]Scrapy框架应用
1.前言通过上一节《PythonScrapy爬虫框架详解》的学习，您已经对Scrapy框架有了一个初步的认识，比如它的组件构成，配置文件，以及工作流程。本节将通过一个的简单爬虫项目对......
安装Scrapy框架
Scrapy的安装介绍Scrapy框架官方网址：http://doc.scrapy.org/en/latestScrapy中文维护站点：http://scrapy-chs.readthedocs.io/zh_CN/latest/index.htmlWindows安装方式1.......
Sampling-bias-corrected neural modeling for large corpus item recommendations
目录概符号说明问题解决方法YiY.,YangJ.,HongL.,ChengD.Z.,HeldtL.,KumthekarA.,ZhaoZ.,WeiL.andChiE.Sampling-bias-correctedneuralmodelingfo......
SVN: E155004: THERE ARE UNFINISHED WORK ITEMS IN ''; RUN 'SVN CLEANUP' FIRST
eclipse开发过程中，检出项目时报错执行项目右键-team-runcleanup-也还是会报这个错误；解决办法下载软件https://www.sqlite.org/download.html解压放到项目.svn目录......
如何实现在下载jdk,maven之后，使用JeesiteMaster4快速搭建一个Jeesite框架开发环境呢？
JeeSite环境的搭建与配置一、创建开发使用的数据库（以本地数据库为例，使用Navicat,新建一个mysql数据库），如下示例：1.输入密码，测试连接本地数据库 2.成功后点击确定，如......
Python scrapy 爬虫模拟登录
模拟登录，可以解决某些网站，必须要登录才能抓取的问题。模拟登录就是要拿到网站的cookie。当爬虫程序进入网站开始抓取时数据时，爬虫的入口并不是scrapy 给定的pass，而......
索性考虑用 ItemsControl 实现还比较方便些。
1.前言最近需要一个WPF的表盘控件，之前Cyril-hcj写过一篇不错的博客《WPF在圆上画出刻度线》，里面介绍了一些原理及详细实现的代码：doubleradius=BackEllipse.Widt......
动态for循环el-collapse-item手风琴效果,v-model以及时间控件的限制
历史详情里面还有要修改的表单后台返回的数据结构是data:{entry:{},entryHistory:[{}]}<divv-for="(item,index)incontractForm.entryH......