---安装---
pip intall lxml
xpath用法步骤
1.实例化一个etree对象,且需要将被解析的页面数据加载到该对象中
--将本地的html文件加载到etree中
etree.parse(filepath)
--将爬取到的源码数据加载到etree中
etree.HTML('page_text')
2.调用etree对象中的xpath方法结合xpath表达式实现标签定位和数据获取
xpath表达式
xpath表达式: /表示从根节点开始定位,跟linux文件系统类似,表示的是一个层级 //表示多个层级 tree = etree.parse(filepath) tree.xpath('/html/head/title') 返回一个或者多个element对象的列表 tree.xpath('/html/body/div') tree.xpath('/html//div') #其中//表示多个层级 属性定位:tree.xpath('//div[@class="item"]') #定位具体某一个类的div 索引定位:tree.xpath('//div[@class="item"]/p[3]') #定位到class = item的div下的第三个p标签,索引是从1开始的 获取标签内的文本数据 tree.xpath('//div[@class="item"]/p[3]/text()') #返回一个列表 获取标签的属性值 tree.xpath('//div[@class="item"]/img/@src') #返回一个列表,即@attrName、 还可以使用其他符号 | 表示或者 tree.xpath('//div[@class="item"]/p[3]/text() | //div[@class="item"]/img/@src')
标签:xpath,etree,tree,item,div,解析,class From: https://www.cnblogs.com/powfu/p/16907350.html