1.环境安装:
-pip install lxml
2.如何实例化一个etree对象:
from lxml import etree
(1)将本地的html文档中的源码数据加载到etree对象中:
etree.parse(filePath)
(2)可以将从互联网上获取的源码数据加载到etree对象中:
etree.HTML("page_text")
3.xpath('xpath表达式')
(1)/:表示的是从根节点开始定位,表示的是一个层级。 (2)//:表示的是多个层级,可以表示任意位置开始定位 (3)属性定位://div[@class='song'] tag[@attrName="attrValue"] (4)索引定位://div[@class='song']/p[3] --索引是从1开始的 (5)取文本: -/text()获取的是标签中的直系的文本内容 - //text()标签中非直系的文本内容(所有的文本内容) (6)取属性(取出src中的属性值) img/@src
标签:Xpath,数据分析,lxml,etree,定位,text,爬虫,源码,文本 From: https://www.cnblogs.com/jxyl/p/16559028.html