scrapy介绍

时间：2023-03-20 16:46:15浏览次数：43

scrapy介绍

# requsets  bs4 selenium  模块
 
# 框架 ：django ，scrapy--->专门做爬虫的框架，爬虫界的django，大而全，爬虫有的东西，它都自带

安装

# 安装 （win看人品，linux，mac一点问题没有）
	-pip3.8 install  scrapy
    
    -装不上，基本上是因为twisted装不了，单独装
        1、pip3 install wheel #安装后，便支持通过wheel文件安装软件，wheel文件官网：https://www.lfd.uci.edu/~gohlke/pythonlibs
        3、pip3 install lxml
        4、pip3 install pyopenssl
        5、下载并安装pywin32：https://sourceforge.net/projects/pywin32/files/pywin32/
        6、下载twisted的wheel文件：http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
        7、执行pip3 install 下载目录\Twisted-17.9.0-cp36-cp36m-win_amd64.whl
        8、pip3 install scrapy

架构分析

	爬虫：spiders(自己定义的，可以有很多)，定义爬取的地址，解析规则
	引擎：engine ---》控制整个框架数据的流动，大总管
    调度器：scheduler---》要爬取的 requests对象，放在里面，排队
    下载中间件：DownloaderMiddleware---》处理请求对象，处理响应对象
    下载器：Downloader ----》负责真正的下载，效率很高，基于twisted的高并发的模型之上
    
    爬虫中间件：spiderMiddleware----》处于engine和爬虫直接的(用的少)
    管道：piplines---》负责存储数据

pycharm打开scrapy项目

# 创建出scrapy项目--下载scrapy会携带可执行文件
	scrapy startproject firstscrapy  # 创建项目
    scrapy genspider 名字 网址        # 创建爬虫   等同于 创建app
     >scrapy genspider crewdel https://www.cnblogs.com/
    # pycharm打开

标签：pip3,爬虫,介绍,---,scrapy,install,下载
From： https://www.cnblogs.com/zhanglanhua/p/17236832.html

selenium自动登录博客园，抽屉半自动点赞，xpath使用，selsenium动作链自动登录12306，打码平
内容回顾beautifulsoup4使用xml解析库，用它，来解析爬取回来的html内容，从中找出我们需要的内容遍历文档树标签点html.body.p.a获取属性对象.attrs.get('href')获取文本......
win10怎么查看硬盘序列号-win10查看硬盘序列号的方法介绍
方法一：检查贴纸标签1、打开PC机箱，寻找物理硬盘上的贴纸或标签。序号列在“Serialnumber”、“S/N”或“SN”之后。2、二维码打印在一些硬盘的标签上。通过简单的扫描，您......
pip介绍及常用命令
pip简介pip是Python官方的包管理器，可以方便地安装、升级和卸载Python包。pip常用命令显示版本和路径pip--version获取帮助pip--help升级pip和升级包pi......
Android GridLayoutManager.setSpanSizeLookup的使用介绍
前些天发现了一个蛮有意思的人工智能学习网站,8个字形容一下"通俗易懂，风趣幽默"，感觉非常有意思,忍不住分享一下给大家。......
状态管理介绍 pinia
什么是状态管理？理论上来说，每一个Vue组件实例都已经在“管理”它自己的响应式状态了。<scriptsetup>import{ref}from'vue'//状态constcount=ref(0)//......
Source Insight 4.0使用介绍
简介SourceInsight是一个功能非常强大的，面向项目的程序编辑器，具有针对C/C++，C＃，Java，Objective-C等的内置动态分析。SourceInsight可实现多文件代码中变量和函数的快......
Scrapy爬虫框架安装与介绍
Scrapy爬虫框架也是爬虫项目常用的框架之一，Scrapy通过Python编写，台式一个快速、高层次的屏幕抓取和网页抓取框架，Scrapy框架的用途广泛，可以用于数据挖掘、监测和自动化测试......
Pandas 2.0 简单介绍和速度评测
Pandas是机器学习中最常用的一个库了，我们基本上每天都会使用它。而pandas使用了一个“NumPy”作为后端，这个我们也都是知道的，但是最近Pandas2.0的RC版已经最近发布了。这......
【Shell 编程】变量详解 | 特殊变量与标准变量 | 基本语句介绍
......
课程介绍与初识前后端通信
课程介绍初始前后端通信前后端通信的过程与概念解释前后端的通信方式HTTP协议初识HTTPHTT......

scrapy介绍

scrapy介绍

相关文章

赞助商

阅读排行