首页 > 其他分享 >pyquery库和parsel库的使用

pyquery库和parsel库的使用

时间:2022-12-26 21:03:39浏览次数:33  
标签:pyquery h2 text res 537.36 parsel str 使用 heads


0x01 安装pyquery库

该库可以直接通过css选择器进行字符串查找

pip install pyquery

0x02 初始化操作

通过PyQuery初始化字符串

from pyquery import PyQuery
import requests


url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
res=PyQuery(str)
print(res)

0x03 获取电影名字

1、res('h2'):获取h2标签所有内容

2、text()将字符串内容打印出来

from pyquery import PyQuery
import requests


url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
res=PyQuery(str)
print(res('h2').text())


运行结果: 爱涌情现浪潮时 爱的锦囊妙计 铁血女王阿米娜:征战天下 我的老板是连环杀手 国际搜查 死亡血路 反恐追缉令 浅草小子 去海边 Reframe THEATER EXPERIENCE with you 凶宅怪谈 青涩的伤痛与脆弱 狂武藏 战地:异种浩劫 恋途未卜 窒恋 路的尽头 迷情杀机:卷土重来 BTS舞台舞蹈许可:首尔实时观看 父情难却 猎杀艾娃 最好的女友 匹诺曹 有一点动心

0x04 安装parsel库

该库是Scrapy框架的底层代码,Scrapy框架是一个爬虫框架,以后我们会详细解说。

pip install parsel

0x05 获取电影名字

1、通Selector初始化一下字符串

2、通过css获取h2标签的所有内容

3、通过xpath获取标签的字符串内容

from parsel import Selector
import requests


url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
sl=Selector(text=str)
res=sl.css('h2')
for i in res:
text=i.xpath('.//text()').get()
print(text)

0x06 声明

仅供安全研究与学习之用,若将工具做其他用途,由使用者承担全部法律及连带责任,作者不承担任何法律及连带责任。

欢迎关注公众号编程者吧

pyquery库和parsel库的使用_html

 

标签:pyquery,h2,text,res,537.36,parsel,str,使用,heads
From: https://blog.51cto.com/u_15288375/5970997

相关文章

  • win32编程 -- 菜单使用
    不知道少了什么,总觉得没有以前快乐,不后悔遇见谁,只后悔变成现在的模样。。。---- 网易云热评一、窗口的顶层菜单 1、创建菜单HMENUCreateMenu(VOID);//创建成功返回菜单......
  • Python常用库的使用
    文章目录​​一.Python计算生态​​​​二.如何导入第三方库​​​​方式一:pip命令行直接安装​​​​方法二:手动下载第三方库,再使用pip安装(适用部分库直接pip安装失败)​......
  • 关于Goland如何使用Typora编辑.md
    不得不说的是jetbrain家并没有特别好的支持.md编辑的插件,我目前用过来体验最好的还是Typora,于是去网上找结果发现了一篇特别文章:Idea中添加Typora第三方软件编辑md文件-......
  • Microsoft 365 开发:使用PnP Powershell连接SharePoint Online失败
    Blog链接:​​https://blog.51cto.com/13969817​​​今天小伙伴使用PnPPowershell连接SharePointOnline时,遇到如下错误:ADSTS65001:Theuseroradministratorhasnotco......
  • express的使用:数据库相关(三)
    1.定义:用来组织,存储和管理数据的仓库2.分类a.MySQL(最广泛,流行度最高,community+enterprise),关系数据库,SQL数据库b.Oracle(收费),关系数据库,SQL数据库c.SQLS......
  • elementui|dropdown|下拉菜单作为模态框使用
    elementui|dropdown|下拉菜单作为模态框使用背景场景:下拉菜单作为模态框使用:操作:下拉菜单设置触发条件点击展示/隐藏:trigger="click"目的:点击取消关闭下拉框遇到的......
  • 强哥的分享--如何使用Spring Boot做一个邮件系统
    ​​http://springboot.fun/​​actuator是单机。集群环境下要使用SpringBootAdmin将各个单机的actuator集成越来  mvncleanpackage-Dmaven.test.skip=true服务器密......
  • 在partition中使用xfs文件系统时,sda没有足够的空间可以让grub2嵌入core.img
    背景:安装kylinv10操作系统,在执行系统盘配置的时候报错报错:在partition中使用xfs文件系统时,sda没有足够的空间可以让grub2嵌入core.img原因:磁盘中有冗余的挂......
  • ArchLinux 使用不同版本的 python
    前提使用pyenv来管理不同版本的python,可以在不改变系统的情况下更换使用其他python版本安装pyenvsudopacman-Spyenv为zsh配置pyenv环境echo'exportPYE......
  • 部署Ingress Controller1.31 以及使用案例
    Ingress是什么?项目地址:​https://github.com/kubernetes/ingress-nginx​​​​Ingress​​ 公开从集群外部到集群内​​服务​​的HTTP和HTTPS路由。流量路由由Ing......