xpath解析

xpath解析

时间：2022-11-19 22:23:23浏览次数：54

标签：xpath etree tree item div 解析 class

---安装---

pip intall lxml

xpath用法步骤

1.实例化一个etree对象，且需要将被解析的页面数据加载到该对象中

--将本地的html文件加载到etree中

　　etree.parse(filepath)

--将爬取到的源码数据加载到etree中

　　etree.HTML('page_text')

2.调用etree对象中的xpath方法结合xpath表达式实现标签定位和数据获取

xpath表达式

xpath表达式:
/表示从根节点开始定位，跟linux文件系统类似，表示的是一个层级
//表示多个层级
    tree = etree.parse(filepath)
    tree.xpath('/html/head/title')      返回一个或者多个element对象的列表
    tree.xpath('/html/body/div')
    tree.xpath('/html//div')        #其中//表示多个层级
    属性定位：tree.xpath('//div[@class="item"]')        #定位具体某一个类的div
    索引定位：tree.xpath('//div[@class="item"]/p[3]')    #定位到class = item的div下的第三个p标签，索引是从1开始的

    获取标签内的文本数据
    tree.xpath('//div[@class="item"]/p[3]/text()')      #返回一个列表
    获取标签的属性值
    tree.xpath('//div[@class="item"]/img/@src')      #返回一个列表,即@attrName、

    还可以使用其他符号 | 表示或者
    tree.xpath('//div[@class="item"]/p[3]/text() | //div[@class="item"]/img/@src')

标签：xpath,etree,tree,item,div,解析,class
From： https://www.cnblogs.com/powfu/p/16907350.html

python(牛客)试题解析2 - 中等
导航一、NC192二叉树的后序遍历二、NC117 合并二叉树三、求长度最长的的连续子序列使他们的和等于sum四、按顺序取出固定长度内容并合并两个数组为一个新数组五、输......
ROS应用层通信协议解析
参考：http://wiki.ros.org/ROS/Master_APIhttp://wiki.ros.org/ROS/ConnectionHeader说明ROS本质上就是一个松耦合的通信框架，通信模式包括：远程调用（service-client）、订阅......
commonjs规范 require 函数解析
functionrequire(modulePath){//1.根据传入的模块路径得到模块完整的绝对路径constmoduleId=getModuleId(modulePath)//2.判断缓存if(cache[mo......
全面解析Android之ANR日志
不论从事安卓应用开发，还是安卓系统研发，应该都遇到应用无响应(简称ANR)问题，当应用程序一段时间无法及时响应，则会弹出ANR对话框，让用户选择继续等待，还是强制关闭。本文将带你......
MySQL 源码解读之-语法解析（四）
MySQL源码解读之-语法解析（四）在上篇文章中，我们分析了一条sql语句select*frombank;警告bison语法解析器（MYSQLparser函数）生成的AST树的结构，如下图所示：mysql需......
python(牛客)试题解析1 - 简单
导航：一、NC103反转字符串二、NC141判断是否为回文字符串三、NC151最大公约数四、NC65斐波那契数列五、字符按排序后查看第k个最小的字母六、数组内取出下标相同......
Java使用SAX解析xml文档
步骤1.创建解析工厂2.从工厂中获取解析器3.自行编写处理器：继承DefaultHandler，重写相关方法。4.加载自己的处理器5.开始解析6.读取数据例子读取此xml文件内容。创......
箭头函数与普通函数的区别、浏览器解析html的过程
箭头函数与普通函数1.书写方式不同，箭头函数使用箭头定义，普通函数使用关键字 2.this指向不同：箭头：2.11箭头函数本身没有prototype，所以没有自己的this，2.21它的this只能......
vba解析JSON字符串
vba解析JSON字符串vba解析JSON大概有4种方法1、htmlfile对象解析json（支持32位和64位系统）思路：创建htmlfile对象，使用write方法写入浏览器版本，创建parentwindow对象，在使用e......
kubernetes_CoreDNS全解析
一、前言kubernetesCoreDNS是kube-system命令空间里面的一个Pod，用于域名解析。kubernetes自带三个命名空间（用kubeadm安装的Kubernetes集群）：defaultkube-public......

相关文章

赞助商

阅读排行