Python web crawler（5）多页网站拼接

时间：2024-01-22 19:12:11浏览次数：38

标签：星际 web Python list 千与千寻 headers div 可播放 crawler

先搞单页网站：

import requests
from lxml import etree


url = 'https://*********.com/top250?start=1'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
    'Cookie': '3',
}
response = requests.get(url, headers=headers)
data = response.content.decode()

tree = etree.HTML(data)

div_list = tree.xpath('//div[@class="hd"]')
# print(div_list)
for div in div_list:
    title = re.sub('\s', '', ''.join(div.xpath('.//text()')))
    print(title)
    
    
# 执行结果
霸王别姬/再见，我的妾/FarewellMyConcubine[可播放]
阿甘正传/ForrestGump/福雷斯特·冈普[可播放]
泰坦尼克号/Titanic/铁达尼号(港/台)[可播放]
这个杀手不太冷/Léon/终极追杀令(台)/杀手莱昂[可播放]
千与千寻/千と千尋の神隠し/神隐少女(台)/千与千寻的神隐
美丽人生/Lavitaèbella/一个快乐的传说(港)/LifeIsBeautiful[可播放]
星际穿越/Interstellar/星际启示录(港)/星际效应(台)[可播放]

标签：星际,web,Python,list,千与千寻,headers,div,可播放,crawler
From： https://www.cnblogs.com/Magiclala/p/17980772

CTF-秀-Web(1-3)
write-up:web-1:题目描述：web签到题解题方法：打开靶机得到一个写着：wherisflag?的页面：先查看一下它的源码：得到一串类似base64的编码，然后把它放进base64里面进行解码一下得到我们的flag：ctfshow{c3a5c6fd-4bc3-45b5-ad68-afd54e4b99d6}web-2:题目描述：最简单的SQL注入解题......
使用 gdb 调试运行中的 Python 进程（转）
addbyzhj: 虽然本文是以UbuntuPython2.7为例，但基本也适用于UbuntuPython3，但有两点不同1. aptintallpython<3.x>-dbg，这里的3.x是你要调试的Python程序使用的Python版本。如果你有两个Python程序需要调试，一个使用Python3.7，另一个使用Python3.9，那需要安装python3.7-dbg和pyt......
python学习笔记10（循环结构2）
一）循环结构21、扩展模式语法：for循环变量in遍历对象：语句块1else:语句块2说明：else在循环结束后执行，通常和break和continue结合使用2、无限循环whilewhile表达式：语句块例子：answer=input('今天要上课么？y/n')whileanswer=='y':print('好好学习，天天向上')answer=input('今......
快乐学Python，如何使用Python处理文件（csv、Excel、html）数据？
在前面的文章中，我们了解了Python爬虫的一些内容。截止到现在，我们已经可以将需要的数据通过爬虫获取，并保存到CSV文件中。在有了数据集后，接下来我们就开始了解如何将数据集的内容加载到Python中。虽然在之前也有了解简单的读取csv数据。但是存在两个问题：只能读取csv文件，但数据分析......
python自动化测试学习路线（从入门到精通）
python自动化测试学习路线（从入门到精通）一、Python的应用场景Python用于简单脚本编程，如编写2048小游戏或12306的自动抢票软件；Python用于系统编程，如开发系统应用；Python用于开发网络爬虫；网络爬虫的用途是进行数据采集，也就是将互联网中的数据采集过来。网络爬虫的难点其......
测试开发技术：Python测试框架Pytest的基础入门
测试开发技术：Python测试框架Pytest的基础入门 Pytest简介Pytestisamaturefull-featuredPythontestingtoolthathelpsyouwritebetterprograms.Thepytestframeworkmakesiteasytowritesmalltests,yetscalestosupportcomplexfunctionaltesting......
如何从 0 开始学 Python 自动化测试开发（一）
如何从0开始学Python自动化测试开发（一）Python:「TIOBE’s2018年度编程语言」Python作为大数据工程和AI的主流开发语言，近年来一直保持强劲的上升趋势。即使目前AI领域还没有大量的成功商业案例（盈利的）出现，Python语言就已经空前火爆了。2019新年伊始，Python果然......
Python 自动化测试开发
测试开发WebUI测试自动化splinter-webUI测试工具，基于selnium封装。链接selenium-webUI自动化测试。链接--推荐文档参考mechanize-Python中有状态的程序化Web浏览。链接selene-使用Python+Ajax支持+PageObjects+Widgets进行简明UI测试链......
Asp.net Webapi 的 Post 方法不能把参数加到 URL 中？试试这样写
Restful风格的api虽然规范了四个方法（Get、Post、Put、Delete）用于数据的查询、增加、修改和删除，但在实际应用中，还是会有很多公司只使用了Get和Post两个方法，查询数据使用Get方法，其它业务操作使用Post方法（为什么会有情况，以后可以写一篇文章讨论一下_），但是Post方法一般......
基于python3 flet库的证书查看工具
前言基于python3flet库实现了证书信息的提取，留作自用，如有错误欢迎指正。正文程序架构：主程序main.py证书解析程序certHandle.py运行pythonmain.pymain.py#-*-coding:utf-8-*-importbase64importtracebackimportjsonimportfletasftfromcertHandleimp......

Python web crawler（5）多页网站拼接

相关文章

赞助商

阅读排行