Scrapy框架详解
【1】 Spider类
- Spiders是定义如何抓取某个站点(或一组站点)的类,包括如何执行爬行(即跟随链接)以及如何从其页面中提取结构化数据(即抓取项目)。
- 换句话说,Spiders是您为特定站点(或者在某些情况下,一组站点)爬网和解析页面定义自定义行为的地方。
1、 生成初始的Requests来爬取第一个URLS,并且标识一个回调函数
第一个请求定义在start_requests()方法内默认从start_urls列表中获得url地址来生成Request请求,
默认的回调函数是parse方法。回调函数在下载完成返回response时自动触发
2、 在回调函数中,解析response并且返回值
返回值可以4种:
包含解析数据的字典
Item对象
新的Request对象(新的Requests也需要指定一个回调函数)
或者是可迭代对象(包含Items或Request)
3、在回调函数中解析页面内容
通常使用Scrapy自带的Selectors,但很明显你也可以使用Beutifulsoup,lxml或其他你爱用啥用啥。
4、最后,针对返回的Items对象将会被持久化到数据库
通过Item Pipeline组件存到数据库:https://docs.scrapy.org/en/latest/topics/item-pipeline.html)
或者导出到不同的文件(通过Feed exports:https://docs.scrapy.org/en/latest/topics/feed-exports.html)
应用(网易新闻)
import scrapy
class WangyiSpider(scrapy.Spider):
name = 'wangyi'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://news.163.com/']
cate_list = [] # 每一个板块对应的url
cate_num_map = {
"{{__i == 0}}": "新闻",
"{{__i == 1}}": "北京",
"{{__i == 2}}": "国内",
"{{__i == 3}}": "国际",
"{{__i == 4}}": "独家",
}
# 数据解析:每一个板块对应的url
def parse(self, response):
with open("news163.html", "w") as f:
f.write(response.text)
cate_num_list = response.xpath('//*[contains(@ne-if,"{{")]/@ne-if').extract()
print("cate_num_list", cate_num_list)
for cate_num in cate_num_list:
print("cate_num", cate_num)
if cate_num in self.cate_num_map:
cate_title = self.cate_num_map.get(cate_num)
news_list = response.xpath(f'//*[contains(@ne-if,"{cate_num}")]/div/a')
print(news_list)
for news_selector in news_list:
news_title = news_selector.xpath('text()').extract_first()
news_detail_url = news_selector.xpath('@href').extract_first()
print("new_title", news_title)
print("new_detail_url", news_detail_url)
print("cate_title", cate_title)
# 对新闻详情页的url发起请求
print("发起新的请求,", news_detail_url)
yield scrapy.Request(url=news_detail_url, callback=self.parse_news_detail)
def parse_news_detail(self, response):
# 解析新闻内容
# content = response.xpath('//*[@id="content"]/div[@class="post_body"]/p[contains(@id,"1M")]/text()').extract()
content = response.xpath('//*[@id="content"]/div[@class="post_body"]/p/text()').extract()
content = ''.join([i.strip() for i in content])
if content:
print("content", content)
# 爬虫类父类的方法,该方法是在爬虫结束最后一刻执行
def closed(self, spider):
# self.bro.quit()
print("此次爬虫全部结束!")
【2】 Item
- 抓取的主要目标是从非结构化源(通常是网页)中提取结构化数据。
- Scrapy爬虫可以像Python一样返回提取的数据。
- 虽然方便和熟悉,但很容易在字段名称中输入拼写错误或返回不一致的数据,尤其是在具有许多爬虫的较大项目中。
- 为了定义通用输出数据格式,Scrapy提供了Item类。
- Item对象是用于收集抓取数据的简单容器。
- 它们提供类似字典的 API,并具有用于声明其可用字段的方便语法。
- Item对象是用于收集抓取数据的简单容器。
(1)、声明项目
- 使用简单的类定义语法和Field 对象声明项。
- 这是一个例子:
import scrapy
class Product(scrapy.Item):
name = scrapy.Field()
price = scrapy.Field()
stock = scrapy.Field()
last_updated = scrapy.Field(serializer=str)
- 注意那些熟悉Django的人会注意到Scrapy Items被宣告类似于Django Models,
- 除了Scrapy Items更简单,因为没有不同字段类型的概念。
- Field对象用于指定每个字段的元数据。
- 例如,last_updated上面示例中说明的字段的序列化函数。
- 您可以为每个字段指定任何类型的元数据。
- Field对象接受的值没有限制。
- 出于同样的原因,没有所有可用元数据键的参考列表。
- Field对象中定义的每个键可以由不同的组件使用,只有那些组件知道它。
- 您也可以根据Field自己的需要定义和使用项目中的任何其他键。
- Field对象的主要目标是提供一种在一个地方定义所有字段元数据的方法。
- 通常,行为取决于每个字段的那些组件使用某些字段键来配置该行为。
(2)、应用(网易新闻)
import scrapy
from items import NewsProItem
class WangyiSpider(scrapy.Spider):
name = 'wangyi'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://news.163.com/']
cate_list = [] # 每一个板块对应的url
cate_num_map = {
"{{__i == 0}}": "新闻",
"{{__i == 1}}": "北京",
"{{__i == 2}}": "国内",
"{{__i == 3}}": "国际",
"{{__i == 4}}": "独家",
}
# 数据解析:每一个板块对应的url
def parse(self, response):
with open("news163.html", "w") as f:
f.write(response.text)
cate_num_list = response.xpath('//*[contains(@ne-if,"{{")]/@ne-if').extract()
print("cate_num_list", cate_num_list)
for cate_num in cate_num_list:
print("cate_num", cate_num)
if cate_num in self.cate_num_map:
cate_title = self.cate_num_map.get(cate_num)
news_list = response.xpath(f'//*[contains(@ne-if,"{cate_num}")]/div/a')
print(cate_title)
print(news_list)
for news_selector in news_list:
news_title = news_selector.xpath('text()').extract_first()
news_detail_url = news_selector.xpath('@href').extract_first()
cate_title = self.cate_num_map.get(cate_num)
print("new_title", news_title)
print("new_detail_url", news_detail_url)
print("cate_title", cate_title)
# 存储数据到item对象
item = NewsProItem()
item['cate'] = cate_title
item['title'] = news_title
# 对新闻详情页的url发起请求
print("发起新的请求,", news_detail_url)
yield scrapy.Request(url=news_detail_url, callback=self.parse_news_detail, meta={'item': item})
def parse_news_detail(self, response):
# 解析新闻内容
# content = response.xpath('//*[@id="content"]/div[@class="post_body"]/p[contains(@id,"1M")]/text()').extract()
content = response.xpath('//*[@id="content"]/div[@class="post_body"]/p/text()').extract()
content = ''.join([i.strip() for i in content])
item = response.meta['item']
item['content'] = content
if content:
print("item", item)
yield item
# 爬虫类父类的方法,该方法是在爬虫结束最后一刻执行
def closed(self, spider):
# self.bro.quit()
print("此次爬虫全部结束!")
【3】 Item PipeLine
- 在一个项目被蜘蛛抓取之后,
- 它被发送到项目管道,该项目管道通过顺序执行的几个组件处理它。
- 每个项目管道组件(有时简称为“项目管道”)是一个实现简单方法的Python类。
- 他们收到一个项目并对其执行操作,
- 同时决定该项目是否应该继续通过管道或被丢弃并且不再处理。
- 项目管道的典型用途是:
- cleansing HTML data
- validating scraped data (checking that the items contain certain fields)
- checking for duplicates (and dropping them)
- storing the scraped item in a database
(1) 编写自己的项目管道
'''
每个项管道组件都是一个必须实现以下方法的Python类:
process_item(self,项目,蜘蛛)
为每个项目管道组件调用此方法。process_item()
必须要么:返回带数据的dict,返回一个Item (或任何后代类)对象,返回Twisted Deferred或引发 DropItem异常。丢弃的项目不再由其他管道组件处理。
此外,他们还可以实现以下方法:
open_spider(self,蜘蛛)
打开蜘蛛时会调用此方法。
close_spider(self,蜘蛛)
当蜘蛛关闭时调用此方法。
from_crawler(cls,crawler )
如果存在,则调用此类方法以从a创建管道实例Crawler。它必须返回管道的新实例。Crawler对象提供对所有Scrapy核心组件的访问,
如设置和信号; 它是管道访问它们并将其功能挂钩到Scrapy的一种方式。
'''
(2) 项目管道示例
[2.1)]价格验证和丢弃物品没有价格
- 让我们看看下面的假设管道,
- 它调整
price
那些不包含增值税(price_excludes_vat
属性)的项目的属性,并删除那些不包含价格的项目:
- 它调整
from scrapy.exceptions import DropItem
class PricePipeline(object):
vat_factor = 1.15
def process_item(self, item, spider):
if item['price']:
if item['price_excludes_vat']:
item['price'] = item['price'] * self.vat_factor
return item
else:
raise DropItem("Missing price in %s" % item)
[2.2] 将项目写入JSON文件
- 以下管道将所有已删除的项目(来自所有蜘蛛)存储到一个
items.jl
文件中,- 每行包含一个以JSON格式序列化的项目:
- 注意JsonWriterPipeline的目的只是介绍如何编写项目管道。
- 如果您确实要将所有已删除的项目存储到JSON文件中,则应使用Feed导出。
import json
class JsonWriterPipeline(object):
def open_spider(self, spider):
self.file = open('items.jl', 'w')
def close_spider(self, spider):
self.file.close()
def process_item(self, item, spider):
line = json.dumps(dict(item)) + "\n"
self.file.write(line)
return item
[2.3] 将项目写入数据库(网易新闻应用)
from scrapy.exceptions import DropItem
import pymongo
class NewsproPipeline:
def process_item(self, item, spider):
print("item:::", item)
if not item["content"]:
raise DropItem(f"{item['title']}content为空")
return item
class MongoPipeline(object):
mongo_db = "news"
collection_name = 'wangyiNews'
def __init__(self, mongo):
self.mongo = mongo
@classmethod
def from_crawler(cls, crawler):
# Scrapy会先通过getattr判断我们是否自定义了from_crawler,有则调它来完成实例化
return cls(crawler.settings.get('MONGO'))
def open_spider(self, spider):
self.client = pymongo.MongoClient(host=self.mongo[0], port=self.mongo[1])
self.db = self.client[self.mongo_db]
def close_spider(self, spider):
self.client.close()
def process_item(self, item, spider):
self.db[self.collection_name].insert_one(dict(item))
print(f"news数据库的{self.collection_name}表中插入{item['title']}记录")
return item
- 这个例子的要点是展示如何使用
from_crawler()
方法以及如何正确地清理资源:
[2.4] 重复过滤
- 一个过滤器,用于查找重复项目,并删除已处理的项目。
- 假设我们的项目具有唯一ID,但我们的蜘蛛会返回具有相同ID的多个项目:
from scrapy.exceptions import DropItem
class DuplicatesPipeline(object):
def __init__(self):
self.ids_seen = set()
def process_item(self, item, spider):
if item['id'] in self.ids_seen:
raise DropItem("Duplicate item found: %s" % item)
else:
self.ids_seen.add(item['id'])
return item
(3) 激活项目管道组件
- 要激活Item Pipeline组件,必须将其类添加到
settings.py
的ITEM_PIPELINES
设置中,- 如下例所示:
ITEM_PIPELINES = {
'myproject.pipelines.PricePipeline': 300,
'myproject.pipelines.JsonWriterPipeline': 800,
"NewsPro.pipelines.MongoPipeline": 500,
}
- 您在此设置中为类分配的整数值决定了它们运行的顺序:
- 项目从较低值到较高值类进行。
- 习惯上在0-1000范围内定义这些数字。
【4】下载中间件
class MyDownMiddleware(object):
def process_request(self, request, spider):
"""
请求需要被下载时,经过所有下载器中间件的process_request调用
:param request:
:param spider:
:return:
None,继续后续中间件去下载;
Response对象,停止process_request的执行,开始执行process_response
Request对象,停止中间件的执行,将Request重新调度器
raise IgnoreRequest异常,停止process_request的执行,开始执行process_exception
"""
pass
def process_response(self, request, response, spider):
"""
spider处理完成,返回时调用
:param response:
:param result:
:param spider:
:return:
Response 对象:转交给其他中间件process_response
Request 对象:停止中间件,request会被重新调度下载
raise IgnoreRequest 异常:调用Request.errback
"""
print('response1')
return response
def process_exception(self, request, exception, spider):
"""
当下载处理器(download handler)或 process_request() (下载中间件)抛出异常
:param response:
:param exception:
:param spider:
:return:
None:继续交给后续中间件处理异常;
Response对象:停止后续process_exception方法
Request对象:停止中间件,request将会被重新调用下载
"""
return None
标签:cate,23,self,item,Scrapy,num,23.2,news,response
From: https://www.cnblogs.com/dream-ze/p/17296477.html