PyQuery数据解析

1、导入

from pyquery import PyQuery

2、创建PyQuery对象

p = PyQuery("页面源代码")

3、定位

# 用法
a = p("css选择器")

a = p("a")  # 选择a标签

a = p("li")("a")  # 选择li下的a标签

a = p(".aaa a")  #  选择class="aaa"的a标签

a = p("#qq a")  # 选择id="qq"的a标签

4、取值

href = p("#qq a").attr("href")  # 取属性href的值

text = p("#qq a").text() # 取文本

# eq(0)表示在已经提取的内容中取第一个
# nth-child(1)表示在css选择时，取第一个位置的内容
chexing = p("div > dl:nth-child(1) > dd").eq(0).text()

注：如果多个标签同时取属性，只能默认拿到第一个。

5、多个标签取值

it = p("li a").items()  # 生成器
for item in it:
    href = item.attr("href")
    text = item。text()

注：p("#qq a").text()是支取文本内容，p("#qq a").html()是取所有内容

6、修改HTML结构

doc = PyQuery("页面源代码")
doc(".aaa").after("""<div class="ccc">你好</div>""")  # 在后面插入HTML代码片段
doc(".aaa").append("""<div class="ccc">你好</div>""")  # 向HTML内层标签中插入HTML片段
doc(".aaa").html("""<div class="ccc">你好</div>""")  # 修改标签内的html代码
doc(".aaa").text("hello")  # 修改文本内容
doc(".aaa").attr("cs","test")  # 添加属性
doc(".aaa").remove_attr("cs")  # 删除属性

标签：qq,aaa,doc,标签,text,PyQuery,解析,数据
From： https://www.cnblogs.com/dxmstudy/p/17310242.html

论文解析 -- AIOps- A Multivocal Literature Review
这篇综述是基于ASystematicMappingStudyinAIOps的基础上的补充和更新。除了论文，还涵盖greyliterature(e.g.,blogposts,videos,andwhitepapers) ，所以称MultivocalOurworkwillcomplementtheworkperformedbytheseauthorsaddingalsoinsightsfromgre......
解析566回调函数
1.这是一个结构体，ConfigCallBack,是结构体别名，*pConfigCallBack是结构体指针里面是两个函数指针，一个是GetConfigCB,一个是SetConfigCB.很明显是获取和设置配置的函数指针。2.实现 3.定义在类里面，然后类成员函数调用即可，用结构体别名定义 ......
C#请求访问HTTP+JSON数据的解析
一、前言最近工作客户需要一个HTTP的Mes需求，所以自己去学习了C#请求HTTP的方法以及JSON数据的解析方法，总结出了点经验，以便后续自己找起来方便一点，故在此写一篇文章。二、准备工作下面我用一个聚合数据提供的天气预报API接口来阐述请求HTTP和JSON数据解析的功能；先看API文档这么访......
Visual Studio C盘数据迁移，解决C盘空间不足的问题
迁移原理：将VisualStudio比较占用磁盘空间的“C:\ProgramFiles(x86)\MicrosoftSDKs\”目录和“C:\ProgramFiles(x86)\WindowsKits\”目录移动到D盘，然后通过mklink命令建立C盘和D盘的软连接然后在cmd下执行下面命令即可（如果提示C盘找不到目录，自己手动新建一个即可）......
APISIX 是怎么保护用户的敏感数据不被泄露的？
本文以APISIX作为例子，为大家介绍了如何借助GlobalDataEncryption功能来保护敏感数据，确保不会有任何敏感数据进行明文存储，这样即使etcd中所有存储的数据都被盗取，也不会造成敏感数据泄露，从而有效提升了APISIX的安全性。作者刘维，API7.ai技术工程师，ApacheAPISIXContrib......
基于chunjun纯钧的增量数据同步问题排查【博客园-实习小生】
基于chunjun纯钧的增量数据同步目前我司的大数据平台使用的是flink技术栈，底层的连接器插件使用的是国产的chunjun插件，在使用chunjun的过程中也遇到了很多问题，本次记录下在SQL模式的情况下怎么支持增量的数据同步chunjun的官网文档对增量同步已经做出了一定的说明纯钧官方根......
域名DNS解析不及时变更？网安大队请你去喝茶
今天早上的时候被一个电话打醒，是当地网安大队找我，顿时心里一惊，说我网站访问有一个叫什么的教育培训网站，问这个网站和我什么关系，我一脸懵，后面让我去一下网安大队。事情是这样的，之前在阿里云租了几年的服务器，起初是打算上线自己项目，但种种事情耽误了进度，服务器闲置一段时间后于今年......
Hive元数据信息表
--Hive元数据表1.表信息（1）TBLS--记录数据表信息，可作为左表，关联其他表信息（2）TABLE_PARAMS—存储Hive表的属性信息具体数据内容：（3）COLUMNS_V2—保存表的字段信息 2.分区信息（1）PARTITIONS （2）PARTITIONS_PARAMS—分区的参数参数的值：（3）PARTITION_KEYS—分区字段......
论文解析 -- A Systematic Mapping Study in AIOps
AIOPS论文的综述如何挑选论文，如何选取keywords 搜索的3个论文库， Weselectthreeonlinesearchdatabasesthatareappropriateforthescopeofinvestigation:IEEEXplore,ACMDigitalLibraryandarXiv. 对于挑选出的论文进行分类，分类标准是，targetcomponents......
【随手记】解决mybatis返回List<map>类型的数据时无序并且不能返回空值
返回结果无序希望表格的列能根据数据库查出来的数据保持一致，但是返回页面的结果集是无序在mybatis中使用List<Map>结构接收数据，发现输入的sql语句结果并不是按照输入的字段名顺序返回的。例如输入selectcol1,col2,col3fromtable却返回col2col3col1***......

PyQuery数据解析

PyQuery数据解析

1、导入

2、创建PyQuery对象

3、定位

4、取值

5、多个标签取值

6、修改HTML结构

相关文章

赞助商

阅读排行