如何自己搭建Scrapy爬虫框架

时间：2023-03-22 09:14:41浏览次数：39

标签：title py Scrapy 爬虫 scrapy wikiSpider article 搭建

当你学了一段时间爬虫后，就会知道各种功能太多而且麻烦。还不如自己整理个框架方便的多。因此，从开始写爬虫程序开始，就会慢慢的接触到一些有关爬虫的框架、效率提升而且扩展也很方便。接下来我将会以Scrapy爬虫框架将我的学习过程记录下供大家参考指正。

一、安装

$ pip install scrapy

二、创建爬虫工程

$ scrapy startproject wikiSpider

三、爬虫工程目录结构

wikiSpider项目文件夹的目录结构如下所示:

scrapy.cfg
- wikiSpider
    - __init__.py
  - items.py  
  - pipelines.py
  - settings.py
  - spiders
       - __init__.py

四、定义需要爬取数据字段

我们准备爬取页面的标题在items.py文件中，定义一个Article类，然后编写如下代码：

from scrapy import Item,Field
class Article(Item):
    title = Field()

五、创建一个爬虫文件

为了创建一个爬虫，我们需要在wikiSpider/wikiSpider/spiders/文件夹里增加一个 articleSpider.py文件。

在新建的articleSpider.py文件里面，写如下代码：

from scrapy.selector import Selector
from scrapy import Spider
from wikiSpider.items import Article

class ArticleSpider(Spider):
    name = 'article'
    allowd_domains = ["en.wikipedia.org"]
    start_urls = ['http://en.wikipedia.org/wiki/Main_Page','http://en.wikipedia.org/wiki/Python_%28programming_language%29']

    def parse(self,response):
        item = Article()
        title = response.xpath('//h1/text()')[0].extract()
        print("Title is : "+title)
        item['title'] = title
        return item

这个类的名称(ArticleSpider )与爬虫文件的名称(wikiSpider)是不同的，这个类只是在 wikiSpider 目录里的一员，仅仅用于维基词条页面的采集。

运行爬虫

你可以在wikiSpider主目录中用如下命令运行 ArticleSpider :

$ scrapy crawl article

这行命令会用ArticleSpider类中的定义的name调用爬虫。这个爬虫先进入start_urls里面的两个页面，收集信息，然后停止。

Scrapy支持用不同的输出格式来保存这些信息，比如CSV、JSON 或XML文件格式，对应命令如下所示：

$ scrapy crawl article -o articles.csv -t csv 
$ scrapy crawl article -o articles.json -t json 
$ scrapy crawl article -o articles.xml -t xml

当然，你也可以自定义 Item 对象，把结果写入你需要的一个文件或数据库中，只要在爬虫的parse部分增加相应的代码即可。如果觉得内容还不错，分享给更多朋友，一起提升编程技能。

标签：title,py,Scrapy,爬虫,scrapy,wikiSpider,article,搭建
From： https://www.cnblogs.com/q-q56731526/p/17242339.html

大数据之—Zookeeper环境搭建
目录前言一、下载二、安装三、集群部署四、注意前言参考博客：https://blog.csdn.net/weixin_55008454/article/details/128445784一、下载zk仓库地址：https://archive.ap......
macOS系统mamp搭建php连接sqlServer扩展,php连接sqlserver数据库
macOS系统mamp搭建php连接sqlServer扩展,php连接sqlserver数据库下载:github上提供已经打包的os拓展文件https://github.com/Microsoft/msphpsql/releases打开php......
Debian 11 搭建 pontoon
pontoon目前没有生产级docker镜像，因此尝试直接从源码开始部署。1.下载项目gitclonehttps://github.com/mozilla/pontoon.gitcdpontoon2.编译前端pontoon前......
爬虫相关 scrapy架构介绍、scrapy解析数据、settings相关配置，提高爬取效率、持久化方
scrapy架构介绍#引擎(EGINE)引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。#调度器(SCHEDULER)用来接受引擎发过来的请求,压入队列中,并在......
scrapy架构介绍、scrapy解析数据、scrapy解析数据、持久化方案、全站爬取cnblogs文章
目录0scrapy架构介绍0.1scrapy的一些命令0.2scrapy项目目录结构1scrapy解析数据解析cnblosg2settings相关配置，提高爬取效率2.1基础的一些2.2增加爬虫的爬取效率3持......
《渗透测试》JS架构&框架识别&泄漏提取&API接口枚举&FUZZ爬虫&插件项目 Day14
0、什么是JS渗透测试？在Javascript中也存在变量和函数，当存在可控变量及函数调用即可参数漏洞JS开发的WEB应用和PHP，JAVA,NET等区别在于即没有源代码，也可以通过......
docker-selenium分布式环境搭建（基于grid框架）
说明：docker-selenium分布式是基于grid框架进行搭建以下是docker-selenium分布式网络拓扑图：从图中可以看出： 1）docker-selenium可以用作浏览器兼容......
hadoop-3.3.0集群环境搭建
#1.配置三台机器的IP地址master10.43.80.80slave110.43.80.81slave210.43.80.82#2.关闭三台机器防火墙systemctlstopfirewalld.service#3.修改主机名对应IP地址，......
flink1.13.0 环境搭建
#flink部署1.standalone模式2.yarn模式session-cluster模式job-cluster模式3.k8s模式注：yarn模式需要依赖hadoop环境，#1.standalone模式直接下载flink-1.13.0......
爬虫selenium模块
selenium基本使用selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题可以直接用代码模拟真实的浏览器操作，每一步......

如何自己搭建Scrapy爬虫框架

相关文章

赞助商

阅读排行