首页 > 其他分享 >scrapy中的CSVFeedSpider

scrapy中的CSVFeedSpider

时间:2023-10-26 22:46:43浏览次数:29  
标签:http url CSVFeedSpider scrapy sinaapp com row

目标网站:

http://beijingair.sinaapp.com/

 目标文件的格式:

此处以爬取一个文件内容为例:

 http://beijingair.sinaapp.com/data/beijing/all/20131205/csv

爬取更多 文件 :

文件中的数据格式:

 

1.创建项目:

scrapy  startproject CSVpro

2.创建爬虫后的初始化spider类:

scrapy genspider -t xmlfeed cnew  chinanews.com

 

 把start_url改为: http://beijingair.sinaapp.com/data/beijing/all/20131205/csv

start_url 可以装很多的目标url

# -*- coding: utf-8 -*-
from scrapy.spiders import CSVFeedSpider


class SinaappSpider(CSVFeedSpider):
    name = 'sinaapp'
    # allowed_domains = ['beijingair.sinaapp.com']
    start_urls = [' http://beijingair.sinaapp.com/data/beijing/all/20131205/csv']
    # start_urls = [' http://yum.iqianyue.com/weisuenbook/pyspd/part12/mydata.csv']
    # headers = ['id', 'name', 'description', 'image_link']
    # delimiter = '\t'

    # Do any adaptations you need here
    #def adapt_response(self, response):
    #    return response

    # delimiter:主要存放字段之间的间隔符
    delimiter = ','
  # 表头信息
    headers = ['date','type','hour']

    def parse_row(self, response, row):
        i = {}
        #i['url'] = row['url']
        #i['name'] = row['name']
        #i['description'] = row['description']
        i['date'] = row['date']
        i['type'] = row['type']
        i['hour'] =row['hour']
        print(i)
        return i

 

标签:http,url,CSVFeedSpider,scrapy,sinaapp,com,row
From: https://www.cnblogs.com/knighterrant/p/10743374.html

相关文章

  • scrapy中爬虫数据如何异步存储mysql数据库jd
    1.SQLCREATETABLE`JDAll`(`shop_id`VARCHAR(16)NOTNULL,//商品ID`url`VARCHAR(255)DEFAULTNULL,//商品url`title`VARCHAR(1024)DEFAULTNULL,//商品标题`brand`VARCHAR(255)DEFAULTNULL,//品牌`brand_url`VARCHAR(1024)DEF......
  • scrapy-redis
    scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能:scheduler-调度器dupefilter-URL去重规则(被调度器使用)pipeline -数据持久化  scrapy-redis组件1.URL去重123456789101112131......
  • 基于Scrapy的考研院校报名数据分析系统-计算机毕业设计源码+LW文档
    一、选题意义随着我国高等教育不断发展,现在我国学生本科就读率不断增高,社会上本科生人才数量也在不断增多。由于我国人口众多,从恢复高考到现在,全国本科学历占比不超过5%,但总数也达到了六千万人左右。本科生不断增多,也造成了就业竞争加大,于是选择继续深造考研的大学生不断增多,2022......
  • 使用Scrapy框架爬取当当网图书信息
    在本文中,我们将使用Scrapy框架来爬取当当网的图书信息。Scrapy是一个强大的Python爬虫框架,可以帮助我们快速高效地从网页中提取所需的数据。首先,我们需要创建一个爬虫组件。在这个组件中,我们定义了爬虫的名称、允许的域名以及起始的爬虫页面。在parse方法中,我们使用BeautifulSoup库......
  • scrapy ja3 tls
       #-*-coding:utf-8-*-importrandomfromscrapy.core.downloader.contextfactoryimportScrapyClientContextFactoryfromscrapy.core.downloader.handlers.http11importHTTP11DownloadHandler,ScrapyAgentORIGIN_CIPHERS='TLS13-AES-256-GCM-SHA384:TL......
  • Python scrapy爬虫框架爬取廖雪峰大佬官网Python教程左侧目录
    文章转载至:mob6454cc6f27a3 的PythonScrapy爬虫框架实例(一)爬虫框架scrapy简单实例吃面崩掉牙的Scrapy爬虫框架入门教程(1)——爬取廖雪峰老师的博客!!只是爬取一个字段,并不将爬取的数据存储下来。!!运行环境:window10x64系统python3.6pycharmanacondascrapy安装好以上环境、包之后,......
  • 手机爬虫用Scrapy详细教程:构建高效的网络爬虫
    如果你正在进行手机爬虫的工作,并且希望通过一个高效而灵活的框架来进行数据抓取,那么Scrapy将会是你的理想选择。Scrapy是一个强大的Python框架,专门用于构建网络爬虫。今天,我将与大家分享一份关于使用Scrapy进行手机爬虫的详细教程,让我们一起来探索Scrapy的功能和操作,为手机爬虫增添......
  • scrapy自带的中间件
    {'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware':100,'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware':300,'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware':350,......
  • scrapy post请求练习
    importscrapyimportjsonclassTransferpostSpider(scrapy.Spider):name='transferPost'allowed_domains=['fanyi.baidu.com']#start_urls=['http://fanyi.baidu.com/']#post请求不能用默认生成的,因为不能携带请求参数#de......
  • scrapy电影天堂练习
    movie.pyimportscrapyfrommovieProject.itemsimportMovieprojectItemclassMovieSpider(scrapy.Spider):name='movie'allowed_domains=['www.ygdy8.net']start_urls=['https://www.ygdy8.net/html/gndy/china/index.......