首页 > 其他分享 >day11 Xpath

day11 Xpath

时间:2024-06-07 15:34:24浏览次数:20  
标签:Xpath 文件 json html day11 file line mode

网页分析有优势,全称XML Path Language一种小型的查询语言
优点:可在XML中查询信息
支持HTML的查询
通过元素和属性进行导航
PY使用需要安装库:安装lxml
selector = etree.HTML(html_doc)//实例化对象,实际上就是一个Element类,通过



逻辑运算:
//div[@id and @class]查找同时拥有的元素
//title | //price # 选取文档中的所有title和price元素,'|'两边必须是完整xpath路径
属性查询:
单引号和双引号//
练习
读 ,存,提取

文件句柄:目录文件获取//在html文件里面查找豆瓣top250.html,模式为mode=r 读
file = open("html文件/豆瓣top250.html",mode="r")
光标移动:读文件个数或者数字的时候,第一个读取和第二个读取是连接上的
循环高效获取数据
for line in file:\每次循环file的数据都会赋值给line,在打印出来 内存的垃圾回收
print(line)\缺点是分次打印,数据是分段的,虽然可以达到效果
写文件的完整操作:保存爬虫数据到文件上面
file = open("豆瓣优秀电影.json,mode=''w") //模式写,创建一个json的文件 a追加
import json //引入
infosStr = json.dumps(infos,ensure_ascii=False)//ascii=False 不转码,直接输出格式
file.write(infosStr)//写入文件,先清空后但是会覆盖
file.close()//经常需要关闭文件

标签:Xpath,文件,json,html,day11,file,line,mode
From: https://www.cnblogs.com/FGOO/p/18237276

相关文章

  • xpath常用的定位规则方法解析
     XPath是一种在XML文档中查找信息的语言,它同样适用于HTML文档,因为HTML可以被看作是一种特殊的XML。在XPath中,你可以使用各种表达式来定位元素。以下是XPath中元素定位的一些常见规则和方法:1.基本路径/ 表示根元素。// 表示选择文档中的节点,而不考虑它们的位......
  • XPath随记
    1、XPath基础:1、/   #从根节点开始2、//  #选择匹配的任何位置3、.   #当前节点4、..  #父节点5、@  #选择属性6、[node]#选取所有node子元素7、[@attr]  #选择带有attr属性的所有元素2、选取......
  • MySQL报错注入之Xpath报错&floor函数报错
    目录前言Xpath报错注入updatexml()函数extractvalue()函数floor函数报错count与groupby的虚拟表总结前言报错注入的使用场景一般是页面无法正常回显数据库查询的内容,但是会详细显示查询过程的错误信息。如果连错误信息都没有,那就是盲注了。报错注入的原理就是将子查询语句查询......
  • Xpath使用教程
    一、安装Xpath解析库-scrapy中的selectorwin+r打开cmd,输入pipinstallwheel,先安装wheel库了才能安装.whl文件。安装lxml库到https://pypi.org/project/lxml/#files下载对应python版本的lxml库 切到lxml下载位置,安装lxml安装Twisted库到https://pypi.org/project/Twis......
  • java测试-Xpath定位
     Xpath定位调式方法console方式:$x("xpath表达式")xpath基础语法1、/从该节点的子元素选取2、//从该节点的子孙元素选取$x('//*')匹配所有3、*通配符查找所有4、nodename标签名(不是属性)$x('//input')5、..当前节点的父节点$x("//*[@id='ember61'......
  • m1_day11
    课程内容:StringBuffer类常见的方法面向对象的高阶特征访问权限修饰符static修饰符final修饰符abstract修饰符单例模式StringBuffer类常见的方法:*append(String):往字符串里面追加连接reverse():翻转字符串insert(int,char):往指定下标处插入......
  • Selenium4自动化测试4--元素定位By.XPATH,元素定位最佳顺序
    7-通过xpath定位,By.XPATH    xpath是什么?XPath是一门在XML文档中查找信息的语言xml是什么?XML(可扩展标记语言),主要用于传输数据为什么可以使用xpath定位html?XPath(XML路径语言)是一种用于在XML文档中定位元素的语言,它可以用于定位HTML文档中的元素。尽管XML和HTML是两种不同......
  • 测试自动化(xpath定位)
    测试自动化(xpath定位)【概要】XPath是一种用于在XML和HTML文档中定位元素的语言,基本语句为【//元素类型[@元素属性=‘’]】其中,元素类型前须加//,可选【span、input、button、div、h1、h2】等html元素,元素属性前须加@,可选【class、placeholder、id】等元素属性在选择定位元素时,常......
  • 爬虫-xpath解析
    你好一、xpath解析原理实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获使用lxml模块1.1实例化一个etree对象将本地的html文档中的源码数据加载到etree对象中:etree.parse(fil......
  • XPath和CSS选择器的进阶
    记录一下关于selenium下xpath的进阶技术XPath轴(axes)和CSS选择器的伪类(pseudo-classes)与伪元素(pseudo-elements)是高级定位技术,可以在复杂的HTML结构中帮助你更精确地定位元素。1.XPath轴(Axes)XPath轴提供了一种方式来选择与当前节点有特定关系的节点。以下是一些常用的XPath轴:......