首页 > 其他分享 >Xpath的基本使用

Xpath的基本使用

时间:2024-02-04 14:47:53浏览次数:20  
标签:Xpath 基本 xpath class body 选取 使用 div 节点

XPath(全称:XML Path Language)即 XML 路径语言,它是一门在 XML 文档中查找信息的语言,最初被用来搜寻 XML 文档,同时它也适用于搜索 HTML 文档,

因此,自动化测试中可以使用 XPath 寻找目标节点操作,在爬虫过程中可以使用 XPath 来提取相应的数据。

Xpath 使用路径表达式来选取XML/HTML文档中的节点或者节点集。Xpath 的功能十分强大,它除了提供了简洁的路径表达式外,还提供了100 多个内建函数,包括了处理字符串、数值、日期以及时间的函数。因此 Xpath 路径表达式几乎可以匹配所有的元素节点。

Xpath基本语法

一、选取节点
          常用的路径表达式:

 

表达式

描述

实例

 

nodename

选取nodename节点的所有子节点

xpath(‘//div’)

选取了div节点的所有子节点

/

从根节点选取

xpath(‘/div’)

从根节点上选取div节点

//

选取所有的当前节点,不考虑他们的位置

xpath(‘//div’)

选取所有的div节点

.

选取当前节点

xpath(‘./div’)

选取当前节点下的div节点

..

选取当前节点的父节点

xpath(‘..’)

回到上一个节点

@

选取属性

xpath(’//@calss’)

选取所有的class属性



二、谓词:被嵌在方括号内,用来查找某个特定的节点或包含某个制定的值的节点

表达式

结果

xpath(‘/body/div[1]’)

选取body下的第一个div节点

xpath(‘/body/div[last()]’)

选取body下最后一个div节点

xpath(‘/body/div[last()-1]’)

选取body下倒数第二个div节点

xpath(‘/body/div[positon()<3]’)

选取body下前两个div节点

xpath(‘/body/div[@class]’)

选取body下带有class属性的div节点

xpath(‘/body/div[@class=”main”]’)

选取body下class属性为main的div节点

xpath(‘/body/div[price>35.00]’)

选取body下price元素值大于35的div节点



三、通配符:Xpath通过通配符来选取未知的XML元素

表达式

结果

xpath(’/div/*’)

选取div下的所有子节点

xpath(‘/div[@*]’)

选取所有带属性的div节点


四、取多个路径:使用“ | 运算符可以选取多个路径

表达式

结果

xpath(‘//div|//table’)

选取所有的div和table节点


五、Xpath轴:轴可以定义相对于当前节点的节点集

轴名称

表达式

描述

ancestor

xpath(‘./ancestor::*’)

选取当前节点的所有先辈节点(父、祖父)

ancestor-or-self

xpath(‘./ancestor-or-self::*’)

选取当前节点的所有先辈节点以及节点本身

attribute

xpath(‘./attribute::*’)

选取当前节点的所有属性

child

xpath(‘./child::*’)

返回当前节点的所有子节点

descendant

xpath(‘./descendant::*’)

返回当前节点的所有后代节点(子节点、孙节点)

following

xpath(‘./following::*’)

选取文档中当前节点结束标签后的所有节点

following-sibing

xpath(‘./following-sibing::*’)

选取当前节点之后的兄弟节点

parent

xpath(‘./parent::*’)

选取当前节点的父节点

preceding

xpath(‘./preceding::*’)

选取文档中当前节点开始标签前的所有节点

preceding-sibling

xpath(‘./preceding-sibling::*’)

选取当前节点之前的兄弟节点

self

xpath(‘./self::*’)

选取当前节点

 


六、功能函数:使用功能函数能够更好的进行模糊搜索

函数

用法

解释

starts-with

xpath(‘//div[starts-with(@id,”ma”)]‘)

选取id值以ma开头的div节点

contains

xpath(‘//div[contains(@id,”ma”)]‘)

选取id值包含ma的div节点

and

xpath(‘//div[contains(@id,”ma”) and contains(@id,”in”)]‘)

选取id值包含ma和in的div节点

text()

xpath(‘//div[contains(text(),”ma”)]‘)

选取节点文本包含ma的div节点

get_attribute()

xpath('//div[@id="ma"]').get_attribute("class")

选取id值等于ma的div的class属性值


  1、精确定位
(1)contains(str1,str2)用来判断str1是否包含str2
例1://*[contains(@class,'c-summaryc-row ')]选择@class值中包含c-summary c-row的节点
例2://div[contains(.//text(),'价格')]选择text()中包含价格的div节点
(2)position()选择当前的第几个节点
例1://*[@class='result'][position()=1]选择@class='result'的第一个节点
例2://*[@class='result'][position()<=2]选择@class='result'的前两个节点
(3)last()选择当前的倒数第几个节点
例1://*[@class='result'][last()]选择@class='result'的最后一个节点
例2://*[@class='result'][last()-1]选择@class='result'的倒数第二个节点

(4)following-sibling 选取当前节点之后的所有同级节点
例1://div[@class='result']/following-sibling::div选择@class='result'的div节点后所有同级div节点找到多个节点时可通过position确定第几个如://div[@class='result']/following-sibling::div[position()=1]

(5)preceding-sibling 选取当前节点之前的所有同级节点
使用方法同following-sibling
2、过滤信息
(1)substring-before(str1,str2)用于返回字符串str1中位于第一个str2之前的部分
例子:substring-before(.//*[@class='c-more_link']/text(),'条')
返回.//*[@class='c-more_link']/text()中第一个'条'前面的部分,如果不存在'条',则返回空值
(2)substring-after(str1,str2)跟substring-before类似,返回字符串str1中位于第一个str2之后的部分
例1:substring-after(.//*[@class='c-more_link']/text(),'条')
返回.//*[@class='c-more_link']/text()中第一个’条’后面的部分,如果不存在'条',则返回空值
例2:substring-after(substring-before(.//*[@class='c-more_link']/text(),'新闻'),'条')
返回.//*[@class='c-more_link']/text()中第一个'新闻'前面与第一个'条'后面之间的部分
(3)normalize-space()
用来将一个字符串的头部和尾部的空白字符删除,如果字符串中间含有多个连续的空白字符,将用一个空格来代替
例子:normalize-space(.//*[contains(@class,'c-summaryc-row ')])
(4)translate(string,str1,str2)
假如string中的字符在str1中有出现,那么替换为str1对应str2的同一位置的字符,假如str2这个位置取不到字符则删除string的该字符
例子:translate('12:30','03','54')结果:'12:45'

3、拼接信息
(1)concat()函数用于串连多个字符串
例子:concat('http://baidu.com',.//*[@class='c-more_link']/@href)

标签:Xpath,基本,xpath,class,body,选取,使用,div,节点
From: https://www.cnblogs.com/lymlike/p/18006112

相关文章

  • pyusb使用
    pyusb使用1、安装pyusbpipinstallpyusb安装完成后运行以下代码查找所有usb设备importusb.util#withpurePyUSBfordevinusb.core.find(find_all=True):print(dev)注意:如果出现usb.core.NoBackendError:Nobackendavailable报错则说明需要安装libusb2、安......
  • Android Handler使用方法
    目录: 1.前言本篇文章介绍AndroidHandler的基本使用方法,且Demo会以Java&Kotlin两种代码形式进行展示。在Android实际开发中,我们经常会遇到耗时任务,比如:网络请求API接口来获取数据、数据库CRUD操作等等,我们需要额外创建开启工作线程来处理这些耗时任务。由于A......
  • 【Docker】使用Docker部署MySQL
    ✨Docker本文介绍DockerDesktop以及docker命令行的简单使用DockerDesktop安装使用请查阅官方文档GetDocker|DockerDocumentation在Windows上安装DockersDesktop可参考【Docker】DockerDesktopforWindows(WSL2)安装-双份浓缩馥芮白-博客园(cnblogs.com)似乎......
  • nvtop —— GPU使用情况的可视化工具
    安装:sudoaptinstallnvtop......
  • 2024最新Android设备UUID/UDID使用指南
    摘要本篇博客主要介绍了Android设备的唯一标识符(UUID和UDID)的使用教程。在Android平台上获取设备ID一直是开发者面临的难题,因为缺乏稳定的API来获取设备ID。本文将介绍几种获取设备ID的方法,并分析它们的优缺点。引言UDID和UUID是Android设备的唯一标识符,用于标识不同设备或不同......
  • 汇编-窗口基本过程
     .386.modelflat,stdcalloptioncasemap:none.stack4096ExitProcessPROTO,dwExitCode:DWORDincludewindows.incincludegdi32.incincludelibgdi32.libincludeuser32.incincludelibuser32.libincludekernel32.incincludelibkernel32.lib.data?......
  • 如何使用Truffle在VSCode中调试solidity合约
    简介Truffle是以太坊最流行的开发框架,能够在本地编译、部署智能合约,使命是让开发更容易。本文以fibonacci作为实例进行调试参考文档https://trufflesuite.com/docs/truffle/how-to/debug-test/use-the-truffle-debugger/https://trufflesuite.com/guides/debugger-variable-i......
  • Git必知必会基础(18):PyCharm中使用Git
    目前主流ide是pycharm、idea等,他们可以集成git,下面分享下基本用法。数据准备远程仓库 演示:在PyCharm中使用Git(IDEA中类似)版本 配置GitSettings——>VersionControl——>Git——>指定git命令的执行路径——>点击Test 检出项目(gitclone)VCS——>GetfromVersionControl... 版......
  • Windows 下 LaTex 超简单地安装使用(MikTeX + VSCode)
    写这篇是因为我找了一晚上教程,结果发现基本上都过时了,现在的版本下根本不需要任何复杂的操作,干脆自己写一个免得后来人再崩溃。参考及主要内容来源,可以说我后半部分内容基本就是翻译(?安装LaTex主流的分发版本应该就是TeXLive和MikTeX了,这里使用MikTex——TeXLive太大了......
  • Shell条件判断:使用[]还是[[]]
    https://mp.weixin.qq.com/s/Gzv2o90dwUlBIDFcnSWpIA在编写Bash脚本时,逻辑表达式通常放在方括号[]中,但实际上,还有另一种方括号[[]]可供选择。这两种方括号在用法和功能上存在一些差异。本文将重点介绍[[]]的优势,并揭示如何判断当前环境是否支持Bash。一、[]与[[]]的区别标准......