XPath 是一门在 XML 文档中查找信息的语言。XPath 使用路径表达式在 XML 文档中进行导航 。XPath 包含一个标准函数库 。XPath 是 XSLT 中的主要元素 。XPath 是一个 W3C 标准
安装lxml
pip install lxml
简单案例
from lxml import etree
if __name__ == '__main__':
# 从本地获取
html = etree.parse('test.html')
# 从网络获取
# html = etree.HTML('HTML_TEXT')
# 层级定位,/表示从指定tag开始
# r = html.xpath('/html//div')
# 层级定位,//表示从任意tag开始
# r = html.xpath('/html//div')
# 属性定位@attrName="attrValue"
# r = html.xpath('//div[@class="song"]')
# 索引定位tag[n],注:n从1开始
# r = html.xpath('//div[@class="song"]/p[3]')
# 取标签直系文本值/text()
# r = html.xpath('//div[@class="tang"]/ul/li[4]/a/text()')[0]
# 取标签所有文本值,包括非直系//text()
# r = html.xpath('//div[@class="tang"]/ul/li[7]//text()')[0]
# 取属性值@attrName
r = html.xpath('//div[@class="song"]//img/@src')
print(r)
```python
标签:xpath,XPath,xpatch,--,爬虫,html,__,div,class
From: https://www.cnblogs.com/mangoai/p/17216246.html