scrapy爬取校花网信息

时间：2022-10-09 12:45:35浏览次数：51

标签：校花文件爬虫爬取 scrapy 我们

校花网的信息资源都可以在我们打印出来的响应对象中找到，所以说，校花网的加载方式是属于静态加载的，所以，我们就可以直接在scrapy框架中的爬虫文件档中将我们所需要的信息全部爬取下来。

1.新建一个scrapy项目文件

在我们的pycharm当中有一个Terminal，我们点击他，就回出现以下。

这里呢，我自己建了一个文件，名字叫做爬虫实战案列，用来存放项目。而在我的这个文件夹中，我再次建立了一个文件以便区分项目位置。如果你没有这个文件夹，就可以直接建立scrapy项目，在这里我还需要cd pc进入下一个文件夹位置才能创建。

那么下载就可以创建scrapy项目文件。

我们在上述的终端窗口，输入scrapy startproject myspider(项目名称)就会创建一个新的scrapy项目

然后我们就要进入项目myspider创建我们的爬虫文件

cd myspider

cd genspider xiaohua(爬虫名字) www.com(域名)

然后就会在spider中出现我们的爬虫文件

以下就是我们爬虫文件内部的内容

allowed_domains是我们的域名，用我自己的话来说就是爬取模块的首页地址

start_urls就是我们爬取板块的首页地址url。

2.现在就要根据我们的需要爬取想要的内容，那么这里，我们是要爬取，每个页面任务的名字以及详情页的链接和详情页的内容。

item=Myspider()是调用items.py的类来实例化一个字典用来存贮数据，所以还需要导入

下面就是完整代码过程

以下试讲爬取的内容保存在json中，

在setting.py设置一下管道

在终端进入我们的项目输入

scrapy crawl xiaohua

你就会发现，json文件中啥都没有，因为前面的域名，没有设置

所以需要将域名设置一下

然后就会发现，有东西了

，今天就这样结束了，。小白所写，不喜勿喷。。。

标签：校花,文件,爬虫,爬取,scrapy,我们
From： https://www.cnblogs.com/beilipython/p/16771632.html

到处裁员，数据分析师还火热吗？爬取了72个城市需求，北京第一
金九银十求职季已经过半，最近咨询经验的同学也越来越多了，有很多求职、或是转行的同学向我咨询我数据分析师岗位的种种信息。虽然老李我在数据领域待了这么多年，对这个岗位的的......
【python爬虫】 python 爬取知乎的公开收藏夹
前言看看如何用python爬取知乎的公开收藏夹内容尝试第一个方法开始的时候用python，request库进行的网页请求，在请求你的收藏夹总界面的时候还可以返回信息，这个ur......
基于Scrapy框架的二手房数据获取及分析
诸如房价这些问题近些年来一直是国内的热点话题。其中房价变化大，房价高等一系列问题也引起大量的关注。因此，本系统致力于利用现有的技术对某二手房交易网站进行数据的爬......
爬取的html页面打印时页面中的中文乱码解决方法
跳转到爬取的html页面会发现默认编码为utf-8，当编辑器默认编码不是utf-8时会出现中文乱码的情况。解决如下：1.在打印前将response的编码格式改为utf-8如：rsponse.encoding="......
python3爬取CSDN个人所有文章列表页
前言我之前写了下载单篇文章的接口函数，结合这篇写的，就可以下载所有个人的所有文章了代码实现没什么技术含量就是简单的xpath处理，不过有意思的是有一位csdn员工将自己的博客......
大麦网演唱会信息爬取
main.pyfromtimeimportsleepfromseleniumimportwebdriverfromselenium.webdriver.common.byimportByfromselenium.webdriver.support.uiimportWebDriverWa......
给女朋友写的一个利用搜索引擎爬取会议论文的脚本
importbs4,requests,osfrommultiprocessingimportManager,Pool#红色：报错defR(message):return"\033[1;91m{}\033[0;m".format(message)#绿色：成功defG......
scrapy
scrapy项目搭建目录scrapy项目搭建中文文档一、scrapy运行原理二、工程搭建流程三、数据抓取步骤四、目录文件说明五、基础配置修改中文文档https://docs.pythontab.co......
Python错误：scrapy框架中callback无法调用
问题描述：当碰到scrapy框架中callback无法调用，直接略过了，别提多头疼了！scrapy.Request(url,headers=self.header,callback=self.details) 解决办法：原因分析：url可......
Scrapy 入门笔记
scrapy框架scrapyscrapy是什么？Scrapy是一个为了爬取网站数据，提取结构化数据而编写的应用框架。可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中。安......

scrapy爬取校花网信息

1.新建一个scrapy项目文件

2.现在就要根据我们的需要爬取想要的内容，那么这里，我们是要爬取，每个页面任务的名字以及详情页的链接和详情页的内容。

相关文章

赞助商

阅读排行