首页 > 编程语言 >Python web crawler(5)多页网站拼接

Python web crawler(5)多页网站拼接

时间:2024-01-22 19:12:11浏览次数:38  
标签:星际 web Python list 千与千寻 headers div 可播放 crawler

先搞单页网站:

import requests
from lxml import etree


url = 'https://*********.com/top250?start=1'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
    'Cookie': '3',
}
response = requests.get(url, headers=headers)
data = response.content.decode()

tree = etree.HTML(data)

div_list = tree.xpath('//div[@class="hd"]')
# print(div_list)
for div in div_list:
    title = re.sub('\s', '', ''.join(div.xpath('.//text()')))
    print(title)
    
    
# 执行结果
霸王别姬/再见,我的妾/FarewellMyConcubine[可播放]
阿甘正传/ForrestGump/福雷斯特·冈普[可播放]
泰坦尼克号/Titanic/铁达尼号(港/台)[可播放]
这个杀手不太冷/Léon/终极追杀令(台)/杀手莱昂[可播放]
千与千寻/千と千尋の神隠し/神隐少女(台)/千与千寻的神隐
美丽人生/Lavitaèbella/一个快乐的传说(港)/LifeIsBeautiful[可播放]
星际穿越/Interstellar/星际启示录(港)/星际效应(台)[可播放]

 

标签:星际,web,Python,list,千与千寻,headers,div,可播放,crawler
From: https://www.cnblogs.com/Magiclala/p/17980772

相关文章

  • CTF-秀-Web(1-3)
    write-up:web-1:题目描述:web签到题解题方法:打开靶机得到一个写着:wherisflag?的页面:先查看一下它的源码:得到一串类似base64的编码,然后把它放进base64里面进行解码一下得到我们的flag:ctfshow{c3a5c6fd-4bc3-45b5-ad68-afd54e4b99d6}web-2:题目描述:最简单的SQL注入解题......
  • 使用 gdb 调试运行中的 Python 进程(转)
    addbyzhj: 虽然本文是以UbuntuPython2.7为例,但基本也适用于UbuntuPython3,但有两点不同1. aptintallpython<3.x>-dbg,这里的3.x是你要调试的Python程序使用的Python版本。如果你有两个Python程序需要调试,一个使用Python3.7,另一个使用Python3.9,那需要安装python3.7-dbg和pyt......
  • python学习笔记10(循环结构2)
    一)循环结构21、扩展模式语法:for循环变量in遍历对象:语句块1else:语句块2说明:else在循环结束后执行,通常和break和continue结合使用2、无限循环whilewhile表达式:语句块例子:answer=input('今天要上课么?y/n')whileanswer=='y':print('好好学习,天天向上')answer=input('今......
  • 快乐学Python,如何使用Python处理文件(csv、Excel、html)数据?
    在前面的文章中,我们了解了Python爬虫的一些内容。截止到现在,我们已经可以将需要的数据通过爬虫获取,并保存到CSV文件中。在有了数据集后,接下来我们就开始了解如何将数据集的内容加载到Python中。虽然在之前也有了解简单的读取csv数据。但是存在两个问题:只能读取csv文件,但数据分析......
  • python自动化测试学习路线(从入门到精通)
    python自动化测试学习路线(从入门到精通)一、Python的应用场景Python用于简单脚本编程,如编写2048小游戏或12306的自动抢票软件;Python用于系统编程,如开发系统应用;Python用于开发网络爬虫;网络爬虫的用途是进行数据采集,也就是将互联网中的数据采集过来。网络爬虫的难点其......
  • 测试开发技术:Python测试框架Pytest的基础入门
    测试开发技术:Python测试框架Pytest的基础入门  Pytest简介Pytestisamaturefull-featuredPythontestingtoolthathelpsyouwritebetterprograms.Thepytestframeworkmakesiteasytowritesmalltests,yetscalestosupportcomplexfunctionaltesting......
  • 如何从 0 开始学 Python 自动化测试开发(一)
    如何从0开始学Python自动化测试开发(一)Python:「TIOBE’s2018年度编程语言」Python作为大数据工程和AI的主流开发语言,近年来一直保持强劲的上升趋势。即使目前AI领域还没有大量的成功商业案例(盈利的)出现,Python语言就已经空前火爆了。2019新年伊始,Python果然......
  • Python 自动化测试开发
     测试开发WebUI测试自动化splinter-webUI测试工具,基于selnium封装。链接selenium-webUI自动化测试。链接--推荐文档参考mechanize-Python中有状态的程序化Web浏览。链接selene-使用Python+Ajax支持+PageObjects+Widgets进行简明UI测试链......
  • Asp.net Webapi 的 Post 方法不能把参数加到 URL 中?试试这样写
    Restful风格的api虽然规范了四个方法(Get、Post、Put、Delete)用于数据的查询、增加、修改和删除,但在实际应用中,还是会有很多公司只使用了Get和Post两个方法,查询数据使用Get方法,其它业务操作使用Post方法(为什么会有情况,以后可以写一篇文章讨论一下_),但是Post方法一般......
  • 基于python3 flet库的证书查看工具
    前言基于python3flet库实现了证书信息的提取,留作自用,如有错误欢迎指正。正文程序架构:主程序main.py证书解析程序certHandle.py运行pythonmain.pymain.py#-*-coding:utf-8-*-importbase64importtracebackimportjsonimportfletasftfromcertHandleimp......