首页 > 其他分享 >Scrapy 保存数据案例-小说保存

Scrapy 保存数据案例-小说保存

时间:2023-06-24 19:11:11浏览次数:27  
标签:item self title spider 保存 content 案例 Scrapy def

spider

import scrapy


class XiaoshuoSpider(scrapy.Spider):
    name = "爬虫名"
    allowed_domains = ["域名"]
    start_urls = ["第一章url地址"]

    def parse(self, response):
        # 章节名称
        title = response.xpath('//h1/text()').get()     #extract_first()
        # 章节内容
        content = response.xpath('//div[@id="content"]/text()').getall()   #extract()
        # 下一章链接
        next_url = response.xpath('//div[@class="bottem2"]/a[4]/@href').get()

        yield {
            'title':title,
            'content':content
        }
        yield scrapy.Request('https://www.tycqzw.la'+next_url,callback=self.parse)

pipeline

class Scrapy05Pipeline:
    def open_spider(self,spider):
        self.file = open('xiaoshuo.txt','w',encoding='utf-8')
    def process_item(self, item, spider):
        self.file.write(item['title']+'\n')
        self.file.write(''.join(item['content'])+'\n\n\n\n')
        return item
    def close_spider(self,spider):
        self.file.close()

setting

#请求头
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
#注释掉协议
# ROBOTSTXT_OBEY = True
#间隔时间
DOWNLOAD_DELAY = 2
#管道pipeline
ITEM_PIPELINES = {
   "scrapy05.pipelines.Scrapy05Pipeline": 300,
}

 

标签:item,self,title,spider,保存,content,案例,Scrapy,def
From: https://www.cnblogs.com/jiangjiayun/p/17501514.html

相关文章

  • Scrapy_ImagePipeline保存图片
    创建一个项目scrapystartprojectmyfrist(project_name)创建一个爬虫scrapygenspider爬虫名爬虫地址需要安装pillowpipinstallpillow报错:twisted.python.failure.FailureOpenSSL.SSL.Error解决方案pipuninstallcryptographypipinstallcryptography==36.0.2代......
  • Scrapy框架爬取豆瓣图书实例
    douban.pyimportscrapyimporttimefrombs4importBeautifulSoupfromscrapyimportRequestfromScripts.ScrapyProject.itemsimportbookItemclassDoubanSpider(scrapy.Spider):name="douban"allowed_domains=["book.douban.com&......
  • 实际案例分析 - 根据应用程序日志的记录,反查出哪一行 ABAP 代码产生的这条日志试读版
    本文的写作动机来自笔者知识星球一个朋友的提问:调用bapi创建主数据的时候报错,没有未物料组分配特性参数文件,这个是什么原因?实际查看,特性文件已经生成了这个朋友提供的是应用程序日志(即ApplicationLog)里的截图。关于应用程序日志的详细用法,笔者之前的文章已经做过介绍。......
  • python爬取一些文字信息并保存到表格
    #coding:utf-8'''获取验证码自动登录'''importopenpyxlfromseleniumimportwebdriverfromselenium.webdriver.common.byimportByfromselenium.webdriver.support.uiimportSelectimporttimeimportreimportrandomimportpandasa......
  • 用python写一个保存文本到文件的函数
    用python写一个保存文本到文件的函数━━━━━━━━━━━━━━━━━━━━━━━━━可以通过Python的文件操作来实现保存文本到文件的功能。下面是一个保存文本到文件的函数的示例:defsave_text_to_file(text,file_path):try:withopen(file_path,'w')a......
  • WPF-配置文件保存和读取
    方法一:属性-设置1,在项目工程名称上》右键属性》设置 2,设置和保存(保存按钮对应的代码)privatevoidBtn_save_Click(objectsender,RoutedEventArgse){intquantity=0;int.TryParse(txt_ToolQuantity.Text.Trim(),outquanti......
  • 强化学习从基础到进阶-案例与实践[3]:表格型方法:Sarsa、Qlearning;蒙特卡洛策略、时序差
    强化学习从基础到进阶-案例与实践[3]:表格型方法:Sarsa、Qlearning;蒙特卡洛策略、时序差分等以及Qlearning项目实战策略最简单的表示是查找表(look-uptable),即表格型策略(tabularpolicy)。使用查找表的强化学习方法称为表格型方法(tabularmethod),如蒙特卡洛、Q学习和Sarsa。本章通过最......
  • xpath解析案例-4k图片解析下载
    1.li标签_a标签_获取img标签中src和alt属性: 2.图片名称中文乱码的解决方式: 3.图片下载保存到指定文件夹: ......
  • 在system32文件夹中,config子文件夹存储了Windows注册表的备份文件。注册表是Windows操
    system32是Windows操作系统中的一个文件夹,它位于C:\Windows\system32路径下。这个文件夹包含了许多重要的系统文件和设置,它们对于操作系统的正常运行非常关键。在system32文件夹中,config子文件夹存储了Windows注册表的备份文件。注册表是Windows操作系统中的一个重要组成部分,它保......
  • 基于SpringBoot实现SSMP整合的案例源码
    案例介绍:基于SpringBoot实现SSMP整合的案例之一(案例分析与模块创建)-掘金(juejin.cn)源码下载:点我......