首页 > 其他分享 >爬虫数据分析-Xpath

爬虫数据分析-Xpath

时间:2022-08-14 10:22:08浏览次数:66  
标签:Xpath 数据分析 lxml etree 定位 text 爬虫 源码 文本

1.环境安装:

 -pip install lxml

2.如何实例化一个etree对象:

from lxml import etree
(1)将本地的html文档中的源码数据加载到etree对象中:
  etree.parse(filePath)
(2)可以将从互联网上获取的源码数据加载到etree对象中:

   etree.HTML("page_text")

3.xpath('xpath表达式')

(1)/:表示的是从根节点开始定位,表示的是一个层级。
(2)//:表示的是多个层级,可以表示任意位置开始定位
(3)属性定位://div[@class='song'] tag[@attrName="attrValue"]
  (4)索引定位://div[@class='song']/p[3] --索引是从1开始的
(5)取文本:
    -/text()获取的是标签中的直系的文本内容
   - //text()标签中非直系的文本内容(所有的文本内容)
 (6)取属性(取出src中的属性值)
        img/@src

 

标签:Xpath,数据分析,lxml,etree,定位,text,爬虫,源码,文本
From: https://www.cnblogs.com/jxyl/p/16559028.html

相关文章