爬虫数据分析-Xpath

标签：Xpath 数据分析 lxml etree 定位 text 爬虫源码文本

1.环境安装：

　-pip install lxml

2.如何实例化一个etree对象：

from lxml import etree
（1）将本地的html文档中的源码数据加载到etree对象中：
　　etree.parse(filePath)
 (2)可以将从互联网上获取的源码数据加载到etree对象中：

　　　etree.HTML("page_text")

3.xpath('xpath表达式')

（1）/：表示的是从根节点开始定位，表示的是一个层级。
（2）//：表示的是多个层级，可以表示任意位置开始定位
（3）属性定位：//div[@class='song'] tag[@attrName="attrValue"]
  (4)索引定位：//div[@class='song']/p[3] --索引是从1开始的
（5）取文本：
    -/text（）获取的是标签中的直系的文本内容
   - //text（）标签中非直系的文本内容（所有的文本内容）
 （6）取属性（取出src中的属性值）
        img/@src

标签：Xpath,数据分析,lxml,etree,定位,text,爬虫,源码,文本
From： https://www.cnblogs.com/jxyl/p/16559028.html

相关文章

赞助商

阅读排行