首页 > 其他分享 >scrapy:快速入门

scrapy:快速入门

时间:2023-05-25 10:46:39浏览次数:45  
标签:baidu 入门 名字 项目 爬虫 scrapy 快速 response

1. 安装

image

2. 项目创建与运行

image
image

3. 项目组织架构

image

4. 工作原理

image
image

5. 案例-百度首页

image

  1. 创建爬虫的项目 【scrapy startproject 项目的名字】
    注意:项目的名字不允许使用数字开头 也不能包含中文

  2. 创建爬虫文件
    要在spiders文件夹中去创建爬虫文件
    【cd 项目的名字\项目的名字\spiders】
    cd scrapy_baidu_091\scrapy_baidu_091\spiders
    创建爬虫文件
    【scrapy genspider 爬虫文件的名字 要爬取网页】
    eg:scrapy genspider baidu http://www.baidu.com
    一般情况下不需要添加http协议 因为start_urls的值是根据allowed_domains
    修改的 所以添加了http的话 那么start_urls就需要我们手动去修改了

  3. 运行爬虫代码
    【scrapy crawl 爬虫的名字】
    eg:scrapy crawl baidu

  4. [可选]scrapy shell 调试
    进入到scrapy shell的终端 直接在window的终端中输入【scrapy shell 域名】
    如果想看到一些高亮 或者 自动补全 那么可以安装ipython pip install ipython
    例如scrapy shell www.baidu.com

6. 案例-58同城

image

  1. scrapy项目的结构
    项目名字
    项目名字
    spiders文件夹 (存储的是爬虫文件)
    init
    自定义的爬虫文件(核心功能文件)
    init
    items 定义数据结构的地方 爬取的数据都包含哪些
    middleware 中间件 代理
    pipelines 管道 用来处理下载的数据
    settings 配置文件 robots协议 ua定义等

  2. response的属性和方法
    response.text 获取的是响应的字符串
    response.body 获取的是二进制数据
    response.xpath 可以直接是xpath方法来解析response中的内容
    response.extract() 提取seletor对象的data属性值
    response.extract_first() 提取的seletor列表的第一个数据

7. 案例-汽车之家

image
image
image

标签:baidu,入门,名字,项目,爬虫,scrapy,快速,response
From: https://www.cnblogs.com/yppah/p/17430453.html

相关文章

  • apifox接口测试管理工具快速入门
    更多内容,欢迎来到我的个人博客==http://blog.devilwst.top==安装apifox官网apifox文档使用初识创建并使用项目可以创建分组,创建子分组相知:设置前缀及公共请求头在使用接口前先创建环境可以先设置前缀url设置公共请求头甚至可以设置cookie等,这样每一个使用该环境的接口请求时都......
  • scrapy:scrapy shell
    ......
  • 动力节点Docker实战入门教程(2)Docker镜像
    根据B站上动力节点的最新版Docker教程整理了学习笔记,持续更新中~3Docker镜像3.1镜像基础3.1.1镜像简介镜像是一种轻量级、可执行的独立软件包,也可以说是一个精简的操作系统。镜像中包含应用软件及应用软件的运行环境。具体来说镜像包含运行某个软件所需的所有内容,包括代码、库、......
  • 【操作系统入门到成神系列 七】Linux 内核 VS Window 内核
    ......
  • MQTT入门DEMO(Java语言)
    目录快速开始准备下载及安装第一次安装EMQX第一次运行EMQX客户端代码快速开始准备MQTT简介EMQX简介下载及安装第一次安装EMQX版本选择EMQX支持多种操作系统,请选择合适您的版本下载。下载地址:https://www.emqx.io/cn/downloads#broker在MicrosoftWindows下安装目前EMQX......
  • 入门爬虫示例-爬取豆瓣短评
    群里有个小妹妹,让我帮她写的代码,好像是作业什么的。花了几分钟看了一下,随便写写,分享给有需要的童鞋,我用python3写的,实现的功能就是:爬取豆瓣短评,然后将数据写入本地的excel表格,数据大概有,电影名称,评分,评论人数,短评四项,稍微修改下也可以爬取其他数据。这属于入门学习的爬虫,博客里的......
  • PLSQL开发工具入门基本操作指引
    完整的PLSQL开发工具基础操作,建议跟随练习一遍即可熟悉。目录:第1章 用PLSQL连接Oracle数据库第2章 在PLSQL中编写SQL语句并执行第3章 在PLSQL中查看数据库表结构第4章 PLSQL中SQL语句的注释方法第5章 对查询结果进行修改、插入行、删除行并保存第6章 对查询结果进行排......
  • 【IntelliJ IDEA】在idea中知道类名,查找类,展示类,快速查找某个类或方法在整个项目中
    背景:我想查看日志级别,知道类名,所以就用快捷键Ctrl+Shift+n查看。在IDEA 中的任何位置都可以使用此快捷键Ctrl+Shift+n或者麻烦点的,知道类名查找类:Ctrl+Shift+Alt+N; 哈哈,我知道你不会记麻烦的。PS:如果按下这些快捷键之后没有反应,第一反应就应该是快捷键冲突,比如你......
  • Docker - docker入门
    Docker学习之路  弱小和无知不是生存的障碍,傲慢才是。      ——《三体》  Docker学习之路Docker概述Docker安装Docker命令镜像命令容器命令操作命令......Docker镜像容器数据卷DockerFileDocker 网络原理IDEA整合DockerDockerCompo......
  • docker 快速入门
               ......