首页 > 其他分享 >XPath从入门到精通:基础和高级用法完整指南,附美团APP匹配示例

XPath从入门到精通:基础和高级用法完整指南,附美团APP匹配示例

时间:2024-02-01 11:56:34浏览次数:24  
标签:XPath 附美团 class 元素 示例 li 选中 div 节点

XPath 通常用来进行网站、XML (APP )和数据挖掘,通过元素和属性的方式来获取指定的节点,然后抓取需要的信息。

学习 XPath 语法之前,首先了解一下一些概念。

概念介绍

节点之间的关系

以上面的 HTML 节点树为例,节点之间包含了下列的关系:

  1. 父节点 (Parent): HTML 是 DIV 和 P 节点的父节点;
  2. 子节点 (Child):DIV 和 P 是 HTML 的子节点;
  3. 兄弟节点 (Sibling):拥有同样的一个父节点,DIV 和 P 就是兄弟节点。类似的 span、img 和 i 也是兄弟节点。
  4. 祖先节点 (Ancestor):html 是 span 的祖先节点,隔开一级;
  5. 后代节点 (Descendant):span 是 HTML 的后代节点,隔开一级。

除了了解这些概念,parent、sibling 等关键词也非常关键,在匹配复杂的结构时常常用到。

绝对和相对路径

xpath 中绝对路径使用 / 开始,比如:/html/body/div[1]/a/img,绝对路径较长,其中可能包含变化的部分,不建议单独使用绝对路径来选择元素,最好配合其它语法。
比如下面的情况单独使用绝对路径进行定位就会出错:

// 本意是匹配第三个div下的span,但因为第一个div因为是动态显隐的,导致匹配第而个div匹配到之前的第三个了

/html/body/div[2]/span

相对路径以 // 开始,比如 //*[@class],表示只要包含 class 属性的元素均可匹配,无论从哪一个节点开始。

下面是一些常见选择节点示例:

表达式 说明 举例
/ 下一个节点,或者根节点开始 /html/body/div
// 从任意节点开始 //img
. 选取当前节点 //a/.
.. 当前节点的父节点 //a/..
@ 选取包含某属性的元素 //div[@class]或//@class
* 表示任意元素或者任意属性 //*[@class]

除此之外,通过谷歌浏览器-元素上审查元素-复制 xpath,可以直接获取绝对路径和相对路径。

但复制下来的代码,通常还需要进行一些修改,才能具备通用性。

基础语法

定位需要的信息通常通过元素、属性名、属性值以及三者结合等方式进行。

下面来分别看一下,也这段 html 代码为例:

<div id="app">
  <p class="title">喜欢的动物</p>
  <ul>
	<li class="cat">猫</li>
	<li class="dog">狗</li>
	<li id="panda">熊猫</li>
  </ul>
  <p class="title">喜欢的电影</p>
  <ul>
	<li>阿甘正传</li>
	<li>霸王别姬</li>
	<li>阿凡达</li>
  </ul>
  <p>其它不需要信息</p>
</div>

1. 通过元素名定位

示例:

1.1 //div/p

定位所有 div 下的 p 子元素,可以是任何 div,只要这个 div 的子节点包含 p 就可以匹配

1.2 //ul

会定位从任何节点开始的 ul 元素

1.3 /html/body/div/p

使用绝对路径定位元素,必须从 /html 开始,否则最好使用 // 相对路径开始

2. 通过属性名定位

通过元素是否包含某个属性来进行定位,属性名需要使用 @ 开始,同时放在 []

2.1 //*[@class]

定位包含 class 属性的元素

2.2 //@class

这种语法定位到的是属性里面的具体值 title,而不是元素,所有没有元素没选中

3. 通过属性值定位

示例:
//li[@class="cat"]

定位包含 class 属性,值为 cat 的 li 属性元素

4. 使用逻辑运算符定位

常用逻辑运算符包括:andornot 三种

示例:

4.1 //li[@class and @class="cat"]

选中包含 class 属性,并且属性值为 cat 的 li 元素对象。

4.2 //li[@class or @id]

选中包含 class 或者 id 属性的 li 元素对象。

4.3 //li[not(@class)]

选中不包含 class 属性的 li 元素对象。

5. 使用谓语定位

5.1 //li[1]

定位任意元素下的第一个 li。

注意
xpath 中索引从 1 开始。

5.2 (//li)[1]

两者区别如下:
//li[1] 任意元素下第一个li,也就是说这个 li 在任意的 ul 下是第一个就会被选中
(//li)[1] 将所有的 li 选出来的结果数组中取第一个,这两者是完全不同的含义

6. 使用文本定位

使用元素中文本的内容进行定位。

示例:

6.1 //li[text()="猫"]

选中文本内容为 的 li 元素对象。

6.2 //*[contains(text(),"喜欢")]

选中任意元素文本中包含 喜欢 两个字的元素,其中 * 表示所有元素是通配符,contains() 表示包含函数。
类似的有:starts-withends-with 函数,表示以什么字符开始和字符结尾的文本。

节点选择器

除了相对和绝对选择之外,下面这些选择器在处理较复杂的匹配场景可以发挥关键作用。

  • parent:::选中父级节点,/.. 也是选中父级,但是通常 parent:: 用于写在 [] 里面作为条件来判断
  • child:::选中子级节点,/ 也是选中子级,通常也是作为条件来使用
  • preceding-sibling:::选中同一层级的前面所有兄弟节点
  • following-sibling:::选中同一层级的后面所有兄弟节点
  • ancestor:::选中祖先节点,包括父级以及更上层的节点
  • descendant:::选中当前节点下面的所有节点,包括子级

举例:

//*[ancestor::div]

选中所有元素中,上级是 div 的元素,其实也就是选中了所有元素,来看看这个
//ancestor::div

只选中了一个元素。

两者的区别如下:
//*[ancestor::div] 选中的 * 表示所有元素,这些元素条件是 [ancestor::div] 父级及以上有 div。
//ancestor::div 选中的是作为别人父级及以上的 div,也就是选中的是 div,这个 div 的是别人的父级或者爷级等
两者是完全不同的概念

美团 APP 匹配示例

看了半天 HTML,我们来了解一下 APP 中的 XML,通常匹配 APP 比网页复杂太多,基本就那几个元素,而且属性名基本都一样,所以常用的手段还是使用各种条件来进行限制匹配,下面来看一个例子。

 <android.view.View index="5" class="android.view.View" text="" checked="false" clickable="true">
  <android.widget.TextView index="1" class="android.widget.TextView" text="象山酥院(湛江印象汇店)" checked="false"/>
  <android.widget.TextView index="2" class="android.widget.TextView" text="" checked="false" clickable="true"/>
  <android.view.View index="3" class="android.view.View" text="" checked="false">
    <android.widget.TextView index="0" class="android.widget.TextView" text="5.0" checked="false" />
  </android.view.View>
  <android.widget.TextView index="4" class="android.widget.TextView" text="周销量 872" checked="false" />
</android.view.View>
<android.view.View index="5" class="android.view.View" text="" checked="false" clickable="true">
  <android.widget.TextView index="1" class="android.widget.TextView" text="蜜雪冰城" checked="false"/>
  <android.widget.TextView index="2" class="android.widget.TextView" text="" checked="false" clickable="true"/>
  <android.view.View index="3" class="android.view.View" text="" checked="false">
    <android.widget.TextView index="0" class="android.widget.TextView" text="5.0" checked="false"/>
  </android.view.View>
  <android.widget.TextView index="4" class="android.widget.TextView" text="周销量 2322" checked="false"/>
</android.view.View>

上面代码为美团的城市列表页面的 UI XML 代码,其中每个元素都包含大量相同的属性和属性值,关键在于整个页面,任何地方基本就是 android.view.Viewandroid.widget.TextView ,像匹配 HTML 那样元素显然行不通。

示例:获取两个商品的评分
//*[@text and ancestor::*/following-sibling::*[contains(@text, '周销量')]]
规则解释:获取任何包含 text 属性的元素,它的父级的的兄弟元素必须是一个 text 值中包含 "周销量"的元素。
我这里没有使用 [1][2][3] 来定位,是因为不同商品的属性很多时候不一样。

通常还是根据想要的元素的位置,以及相邻元素的特征来定位,首先找到独特的文本,比如上面的周销量是固定会出现的,还有 ¥ 符号也可以,这些都是位置和文本值固定的,找到这个的位置,再去定位需要的元素的位置。

工具推荐

  1. 谷歌浏览器-审查元素- ctrl + f,可以直接输入 xpath 语句
  2. 谷歌浏览器-selectorshub 插件,文中使用的是这个插件

标签:XPath,附美团,class,元素,示例,li,选中,div,节点
From: https://www.cnblogs.com/easy1996/p/18000898

相关文章

  • 鸿蒙页面示例
    @Component标签修饰UI,相当于Android的view,所有的UI组件都要使用@Component标签@Entry标签表明当前是一个页面,不是一个视图。多个组件组合时只能有一个@Entry标签,被该标签修饰后页面才会有生命周期importrouterfrom'@ohos.router'@Entry@ComponentstructLogin{@Statetit......
  • linxu使用HTTP代码示例
    在Linux的世界里,一切都像一场魔法秀。而HTTP,这个在互联网世界里无处不在的协议,就像是魔法师手中的魔杖,一点一挥,信息就飞到了千里之外。想象一下,你坐在一台老旧的终端前,输入一个命令,然后你的请求就像一颗魔法弹,穿越了网络的大海,直达目标。这就是Linux和HTTP的魅力所在。让我们来看看......
  • [转]TypeScript类型编程中的extends和infer示例解析
    转自;https://www.jb51.net/javascript/294261vgi.htm TypeScript类型编程中的extends和infer示例解析 −目录引文extends条件判断约束参数类型约束infer推导的局部变量类型类型转换infer组合使用ReturnTypeParameters引文在刚接触TypeScript的时候,......
  • 基于Basic auth 的一个C# 示例
    最近在做公司的一个项目时,客户需要我们定时获取他们矩阵系统的数据。在与客户进行对接时,提到他们的接口使用的目前不常用的BASIC认证。天呢,它好不安全,容易被不法人监听,咋还在使用呀。但是没办法呀,谁让客户的系统就是这样的呢。因为现在开发中绝大多数使用的是基于Bearer认证的。......
  • PARI/GP编程示例
    素材主要来自我在RosettaCode上贡献的PARI/GP代码目录default(realprecision,110)控制实数计算的有效位数default(parisize,"32M");增加PARI/GP申请的栈内存大小顺序结构、选择结构、循环结构for-loop中设置步长vector实现map操作格式化打印switch-casefor-eachonelist应该没有......
  • 无涯教程-Socket.IO - 聊天示例
    现在我们已经很熟悉Socket.IO,让我们编写一个聊天应用程序,可以在不同的聊天室中使用它进行聊天,我们将允许用户选择用户名,并允许他们使用他们聊天。因此,首先,让我们设置HTML文件以请求用户名-<!DOCTYPEhtml><html><head><title>HelloLearnfk</title></head><......
  • 无涯教程-Socket.IO - 应用示例
    创建一个名为app.js的文件,然后输入以下代码来设置快速应用程序-varapp=require('express')();varhttp=require('http').Server(app);app.get('/',function(req,res){res.sendfile('index.html');});http.listen(3000,function(){conso......
  • 类,对象--示例代码
    #include<iostream>usingnamespacestd;classBox{ private: doublelength; doublewidth; public: voidsetLength(doublelength); voidsetWidth(doublewidth); doublegetLength(); doublegetWidth(); doublegetArea(); };voidBox::setLength......
  • XPath基本语法的使用
    xpath基本语法https://www.jb51.net/program/306644fge.htmhttps://www.cnblogs.com/wu-wu/p/11642992.htmlhttps://blog.csdn.net/Once_day/article/details/129869027XPath语法|菜鸟教程https://zhuanlan.zhihu.com/p/3429030851.XPath概述1.1概述下面是关于xpath的概述......
  • Golang 语言入门:基础语法与示例
    引言Go语言(也称为Golang)是由Google开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的编程语言。自2009年推出以来,Go已经成为云计算、微服务、网络服务器等领域的热门选择。其设计哲学是简洁、快速和易于理解,这使得Go语言特别适合当今快速发展的软件行业。Go语言的基本语法......