首页 > 其他分享 >爬虫学习笔记 -- 实战某电影网(lxml库版)

爬虫学习笔记 -- 实战某电影网(lxml库版)

时间:2022-12-26 21:03:29浏览次数:40  
标签:lxml ul -- li 获取 537.36 html 库版 div


0x01 安装lxml库文件

pip3 install lxml

爬虫学习笔记 -- 实战某电影网(lxml库版)_字符串

0x02 初始化字符串

1、通过HTML类初始化字符串

from lxml import etree
import requests
url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
html=etree.HTML(str)
print(html)
运行结果:<Element html at 0x17bf61e9d80>

0x03 获取xpath路径

1、右击要获取的字符串,选择审查元素

爬虫学习笔记 -- 实战某电影网(lxml库版)_字符串_02

2、右击要获取字符串这行,选择复制,选择复制Xpath

爬虫学习笔记 -- 实战某电影网(lxml库版)_字符串_03

/html/body/div[2]/div/div[2]/ul/li[1]/h2/a

0x04 利用Xpath获取电影名

from lxml import etree
import requests


url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
html=etree.HTML(str)
res=html.xpath('/html/body/div[2]/div/div[2]/ul/li[1]/h2/a/text()')
print(res)
运行结果:['奇门暗刃']

1、text()获取节点内容

2、"ul/li[1]",这里只是获取了第一个电影名字

3、因为有多个li节点,所以将下标1去了就可以获取所有节点内容

res=html.xpath('/html/body/div[2]/div/div[2]/ul/li/h2/a/text()')

0x05 声明

仅供安全研究与学习之用,若将工具做其他用途,由使用者承担全部法律及连带责任,作者不承担任何法律及连带责任。

欢迎关注编程者吧

爬虫学习笔记 -- 实战某电影网(lxml库版)_python_04

标签:lxml,ul,--,li,获取,537.36,html,库版,div
From: https://blog.51cto.com/u_15288375/5970998

相关文章

  • 爬虫学习笔记 -- requests库基础
    0x01requests库安装1、通过控制台运行下面代码pip3installrequests2、通过Pycharm安装,点击+号,搜索requests,然后点击安装 0x02GET请求1、普通请求importrequestsurl="h......
  • 爬虫学习笔记 -- 正则表达式
    0x01match1、从头开始匹配,只能匹配一次importrestr="1a2b3c456d7e890f"res=re.match('\d+',str)print(res.group())运行结果:12、通用匹配符.*?importrestr="11a2b3c456d7e......
  • 火山中文编程 -- 封装信息框API
     ......
  • OD修改软件
    一、打开软件,查看正常运行的程序二、打开OD,拖入要调试的程序三、分析汇编代码title是"Helloworld",内存地址是0x00403000四、数据窗口跳转到该地址,快捷键ctrl+G五、修改数据......
  • JS逆向 -- 本地调试
    一、通过Fiddler抓包,找到要替换的JS文件,这里要替换的事md5.js二、新建一个md5.js文件,内容为包里的内容,为了区分,我们给他多加一个变量三、将该包,拖到AutoResponder选项卡,该打......
  • JS逆向 -- HOOK关键数据
    一、安装油猴插件​​https://ext.se.360.cn/webstore/search/tampermonkey​​二、添加新脚本三、常用代码1、name:该脚本的名字2、match:要hook的网站:一般填写http://*/*3、......
  • 子域名收集 -- Anubis
    今天给大家介绍一款子域名收集软件Anubis下载地址:https://github.com/jonluca/Anubis一、环境kalipython3二、安装过程:1、复制到本地安装包gitclonehttps://github.co......
  • ACM预备队-week8(DP2)
    1.疯狂的采药完全背包题目链接:P1616疯狂的采药-洛谷|计算机科学教育新生态(luogu.com.cn)1#include<bits/stdc++.h>2usingnamespacestd;3#defineint......
  • 3、端口
    一个服务器可以对应多个域名,同样也可以对应多个端口,比如:192.168.1.111:80192.168.1.111:82不同端口可以搭建不同网站。常见端口:HTTP协议代理服务器:80/8080/3128/8081/908......
  • 结构 Structs
    与引用类型Class不一样,结构体是一种值类型的数据结构,通过使用Struct关键字,我们可以在一个单一的变量中直接存储各种各样复杂的数据结构。语法:[访问修饰符]struct结构体......