首页 > 编程语言 >python scrapy 爬虫爬取quotes.toscrape.com

python scrapy 爬虫爬取quotes.toscrape.com

时间:2024-03-21 19:02:54浏览次数:33  
标签:xpath toscrape python cmd 爬取 quotes scrapy py div

1、安装scrapy   pip包的管理工具
pip install scrapy(在cmd中下载)

win+r键输入cmd 进入命令行
2.scrapy介绍
它是由五部分组成 
引擎  下载器  spider  中间件  管道
你只需要知道spider即可 因为所有代码都在这里面
管道是处理数据的 框架定义好接口 调用就可以了
3.xpath
网页的组成   结构(html)     表现(css)      行为(js)
4.创建scrapy项目
scrapy startproject quotesSpider(cmd中)
scrapy startproject 项目名

__init__.py 初始化文件
items.py 数据模型
middlewares.py  中间件
pipelines.py 管道
settings.py 配置文件


5.创建爬虫文件
cd quotesSpider/quotesSpider(在cmd中)
scrapy genspider quotes "quotes.toscrape.com"(cmd中)
6.运行爬虫文件
scrapy crawl quotes
7.生成json文件
scrapy crawl quotes -o quotes.json(cmd运行 python中会出现json文件)

8.xpath使用
//div     代表找到所有的div标签
/div       代表找到所有的子标签 并且名字为div
/div[n]  代表 找到父级元素下的第n个子标签 并且名字为div(下标从1开始)
div[@class="box"]  找到具有class属性 并且名字为box的div标签

cd 文件将文件拖进cmd中 会出现路径

设置python环境

出现scrapy       鼠标指向scrapy单击使用alt+enter添加 需要的包。

在pass后输入

quotes = response.xpath("//div[@class='quote']") for quote in quotes: # 迭代器 yield { "text":quote.xpath("span[@class='text']/text()").extract_first(), "author":quote.xpath("span[2]/small/text()").extract_first() }

打开这个网站使用f12或者右键检查会发现我们要的数据

爬出出数据成功。

标签:xpath,toscrape,python,cmd,爬取,quotes,scrapy,py,div
From: https://blog.csdn.net/qq_58423995/article/details/136911149

相关文章

  • Python利用Numpy和Pandas实现数据清洗
    利用Numpy和Pandas对数据进行清洗,包括去除重复记录、处理缺失值和异常值,实现代码如下:点击此处下载数据集#coding=utf-8#导入必要的库importpandasaspdimportnumpyasnp#导入数据及输出格式defread_data(filename):data=pd.read_csv(filename)......
  • 《Python从入门到实践》第九章 类
    面向对象编程是最有效的软件编写方法之一在面向对象编程时,你编写表示现实世界中的事物和情景的类,并基于这些类来创建对象。根据类来创建对象称为实例化,这让你能够使用类的实例创建和使用类创建Dog类classDog:"""一次模拟小狗的简单尝试"""def__init__(self,......
  • python代码小题(4)
    #输出等腰三角形i=1whilei<=5:print(""*(5-i),end="")j=1whilej<=2*i-1:print("*",end="")j+=1print("")i+=1#for循环输出9*9乘法表forjinrange(1,10):......
  • Python的特点是什么?
    一、Python的特点是什么?Python是一种广泛使用的编程语言,具有许多引人注目的特点,以下是Python的主要特点:简单易学:Python的语法清晰明了,易于学习,这使得初学者能够快速上手。此外,Python的代码可读性强,易于编写和理解。面向对象:Python支持面向对象的编程范式,这使得开发者能够创建......
  • requests.post传的data如果是直接使用python dict封装,有些服务端接收不了这种数据类型
    平时在自己的php项目里,使用dict方式组装data,然后requests.post,一点问题都没有。但是调了后端一个java的微服务接口,结果就一直报错422: 最后问了一下开发,得到提示“python好像还有个毛病,python的json对象转字符串的时候,转出来的字符串不是标准json字符串,还要做个字符串处理,变成......
  • Python爬虫-数据采集和处理
    文章目录数据数据类型数据分析过程数据采集数据采集源数据采集方法数据清洗清洗数据数据集成数据转换数据脱敏数据《春秋左传集解》云:“事大大其绳,事小小其绳。”体现了早期人类将事情的“大小”这一性质抽象到“绳结大小”这一符号上从而产生数据的过程。数据......
  • Python安全脚本之自动化子域名收集
    声明:本工具仅用于日常学习使用,禁止用于非法域名收集,否则后果由使用者承担!!!在信息收集中少不了一些脚本的辅助,本文将讲解如何编写一个自动化子域名收集脚本代码及注释如下:fromconcurrent.futuresimport*importrequestsbanner='''_________......
  • 解决[TSP旅行商]问题,请列出[4]个可以用[Python]编程的优化路径算法,展开写出这[4]个算
    TSP(旅行商问题)是一个经典的组合优化问题,其目标是找到访问所有城市并返回起点的最短可能路线。在Python中,有多种算法可以用来解决TSP问题,以下是四个常用的算法及其编程难度级别、时间复杂度和所需的库:回溯法(Backtracking)编程难度级别:中等时间复杂度:指数级,因为需要遍历所有......
  • python操作kafka
    目录一、python操作kafka1.python使用kafka生产者2.python使用kafka消费者3.使用docker中的kafka二、python操作kafka细节2.1生产者demo2.2消费者demo2.3消费者(消费群组)2.4消费者(读取目前最早可读的消息)2.5消费者(手动设置偏移量)2.6消费者(订阅多个主题)......
  • Uscrapper:一款功能强大的网络资源爬取工具
    关于UscrapperUscrapper是一款功能强大的网络资源爬取工具,该工具可以帮助广大研究人员从各种网络资源中轻松高效地提取出有价值的数据,并且提供了稳定、友好且易于使用的UI界面,是安全研究人员和网络分析人员的强有力工具。Uscrapper最大程度地释放了开源情报资源的力量,该工具......