在scrapy框架前,相信大家或多或少的已经了解了一些网页数据解析方法,如:xpath、bs4、正则表达式等,但是在scrapy框架中也有一个内置的数据提取方法--Selector。在这里我们就先简单介绍一下Selector在scrapy中的运用及常用方法。
为了方便示例,我们以官方文档中的示例页面源码进行演示,页面源码如下:
<html>
<head>
<base href='http://example.com/'/>
<title>Example website</title>
</head>
<body>
<div id='images'>
<a href='image1.html'>Name: My image 1 <br/><img src='image1_thumb.jpg'/></a>
<a href='image1.htm2'>Name: My image 2 <br/><img src='image2_thumb.jpg'/></a>
<a href='image1.htm3'>Name: My image 3 <br/><img src='image3_thumb.jpg'/></a>
<a href='image1.htm4'>Name: My image 4 <br/><img src='image4_thumb.jpg'/></a>
<a href='image1.htm5'>Name: My image 5 <br/><img src='image5_thumb.jpg'/></a>
</div>
</body>
</html>
一、Selector
selector选择器是属于scrapy框架中的内置解析方法,同样属于parsel库来构建的。不过selector对parsel库进行了封装,结合scrapy使用。selector支持Xpath、CSS选择器和正则表达式。
1、scrapy外使用selector的方法
- 先从scrapy库中导入Selector模块,再调用Selector中的xpath方法。
from scrapy import Selector
body = '<html><head><title>hello World</title></head><body></body></html>'
selector = Selector(text=body)
title = selector.xpath('//title/text()').extract_first()
print(title)
selector有extract()和extract_first()两个常用的方法。接下来我们看一下这两个方法的使用。
2、extract()
在scrapy框架中通过selecrot提取得到的结果往往是以SelectorList的类型返回,所以其返回的值并不是真正的文本内容,具体内容需要用到extract()方法。
selectorList类型如下:
[<Selector xpath='//a' data='<img src="image1_thumb.jpg">'>,
<Selector xpath='//a' data='<img src="image2_thumb.jpg">'>,
<Selector xpath='//a' data='<img src="image3_thumb.jpg">'>,
<Selector xpath='//a' data='<img src="image4_thumb.jpg">'>,
<Selector xpath='//a' data='<img src="image5_thumb.jpg">'>,]
通过extract()可以取出以上数据所包含的具体内容。
-
title= response.selector.xpath('//img/@src').extract()
# 结果如下
['image1_thumb.jpg','image2_thumb.jpg','image3_thumb.jpg','image4_thumb.jpg','image5_thumb.jpg',]
3、extract_first()
- extract_first()则可以去除内容的第一个字符串。
-
title= response.selector.xpath('//img/@src').extract_first()
# 结果如下
'image1_thumb.jpg'
4、添加所需要的参数
若无内容,怕选取的内容没有,而导致报错,则可以在extract_first()中添加所需要显示的参数。如:
-
title= response.selector.xpath('//img/@href').extract_first(‘不详’)
# 结果如下
'不详'
二、Xpath
在scrapy中直接使用selector的方法:
-
title= response.selector.xpath('//title/text()').extract_first()
由于scrapy中有一个属性selector,通过调用response.selector返回的内容,相当于response的text构造了一个selector对象,通过该对象,可以调用Xpath、CSS等解析方法,向方法内传入Xpath或CSS选择器参数就可以实现信息的提取。
所以,在scrapy一般不会使用response.selector.xpath('//a')的方法,而是直接response.xpath('//a')。
# 运行结果
[<selector xpath='//a' data='<a href='image1.html'>Name: My image 1 <'>,
<selector xpath='//a' data='<a href='image2.html'>Name: My image 2 <'>,
<selector xpath='//a' data='<a href='image3.html'>Name: My image 3 <'>,
<selector xpath='//a' data='<a href='image4.html'>Name: My image 4 <'>,
<selector xpath='//a' data='<a href='image5.html'>Name: My image 5 <'>,
]
由于xpath在scrapy中的提取和解析的具体方法与xpath单独使用相同,所以在这就就不再多赘述其使用的具体方法。
三、CSS选择器
1、锁定标签
response.css('a')
2、获取标签文本和属性使用::text和::attr的写法。
- ::text的写法示例
-
response.CSS('a[href="image1.html"]::text').extract_first() 'Name: My image 1'
- ::attr的写法示例
-
response.CSS('a[href="image1.html"] img::attr(src)').extract_first() 'Name: My image 1'
3、嵌套使用解析方法
response.xpath('//a').CSS('img'].xpath('@src').extract()
['image1_thumb.jpg','image2_thumb.jpg','image3_thumb.jpg','image4_thumb.jpg','image5_thumb.jpg']
四、re
1、基础用法
- scrapy框架中的selector选择器也支持正则表达式,如下:
-
response.xpath('//a/text()').re('Name:\s(.*)') ['My image 1','My image 2','My image 3','My image 4','My image 5']
2、多值提取
- 如果存在两个分组,结果依然会按照排序输出,如下:
-
response.xpath('//a/text()').re('(.*?):\s(.*)') ['Name','My image 1','Name','My image 2','Name','My image 3','Name','My image 4','Name','My image 5']
3、re_first()
- 类似extract_first(),re_first方法可以选取列表的第一个元素,用法如下:
-
response.xpath('//a/text()').re_first('(.*?):\s(.*)') 'Name' response.xpath('//a/text()').re_first('Name:\s(.*)') 'My image 1'
Ps:reponse对象不能直接调用re和re_first方法,若想全文进行正则匹配需要先调用xpath再进行正则匹配。
response.xpath('.').re_first('Name:\s(.*)<br>')
'My image 1'
标签:xpath,Name,extract,image,爬虫,Selector,scrapy,My
From: https://www.cnblogs.com/LoLong/p/17275557.html