首页 > 其他分享 >13用BeautifulSoup爬取网站

13用BeautifulSoup爬取网站

时间:2023-08-12 16:46:28浏览次数:43  
标签:13 list BeautifulSoup h4 爬取 html sec fetch

 代码如下

from bs4 import BeautifulSoup
import requests
'''
本例子通过BeautifulSoup 的常用方法find_all 查询出所有包含电影名字的a标签的父节点h4,再通过父节点遍历得到a标签中的文本。
find_all 里面的参数一般是class_ 、id、name等html属性值,批量爬取数据时往往使用的是class属性。
目标html结构

<h4 class="title text-overflow">
    <a href="/vod/47562.html" title="梦游乐园">梦游乐园</a>
</h4>
BeautifulSoup 的作用不仅如此,还可以获取属性值等等,根据网页结构和属性捕获数据。
'''


req=requests.session()

headers = {
    'authority': 'fsbj001.com',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8',
    'cache-control': 'no-cache',
    'pragma': 'no-cache',
    'referer': 'https://fsbj001.com/list/dianying-1.html',
    'sec-ch-ua': '"Not/A)Brand";v="99", "Google Chrome";v="115", "Chromium";v="115"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
    'sec-fetch-dest': 'document',
    'sec-fetch-mode': 'navigate',
    'sec-fetch-site': 'same-origin',
    'sec-fetch-user': '?1',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36',
}

response = req.get('https://fsbj001.com/list/dianying-1.html', headers=headers)
soup = BeautifulSoup(response.text,'lxml')

h4_list = soup.find_all(class_='title text-overflow')
for h4 in h4_list:
    print(h4.a.string)

 输出结果

兴安岭猎人传说2
星条红与皇室蓝
金牌保镖
谍之心
关于我和鬼变成家人的那件事
白日青春
爷爷的人生滑板
玛丽·塞莱斯特的附魔
扫毒3:人在天涯粤语
72小时-黄金行动
扫毒3:人在天涯国语
不要见怪
河畔城市
亚当2019
...

 

标签:13,list,BeautifulSoup,h4,爬取,html,sec,fetch
From: https://www.cnblogs.com/chenzhi2023/p/17624999.html

相关文章

  • t113-c-lvgl8-gui例子
    其实tina官方提供了littellvgl的例子,既然找不到原因(可能是8.39的bug),那就看看官方怎么写的。路径主路径是在这里:makefile:显然这makefile是显示在应用层开发的main中:在littlelvgl中有个lvinit是用来初始化内存等等东西的,而在我写的程序中并没有写入写入后仍然不行,看来不是......
  • 【230812-2】指数比较大小:13^17 vs 17^13
    ......
  • 8.7-8.13学习总结博客五:Hive进阶与复杂查询
    博客题目:学习总结五:Hive进阶与复杂查询实践内容概要:学习Hive进阶的使用方法,包括复杂查询、数据转换和性能优化等方面的知识。学习资源:推荐的Hive进阶教程、实践案例和性能优化技巧。实践内容:通过编写复杂的Hive查询语句,探索Hive的高级功能和性能优化方法,并分享实践中的挑战和解决......
  • 真正的包罗“万”象!上海AI实验室、港中文等提出V3Det目标检测数据集,含有13029个类别!
    前言 数据集标签纷繁复杂,一直缺少系统、完善的分类体系,而这恰恰又是通用目标检测大模型的重要基础。今天,给大家介绍一篇超级“狠活”文章,来自上海人工智能实验室和香港中文大学的学者提出了一个海量类别的目标检测数据集V3Det,总类别数达到13029!本文转载自我爱计算机视觉仅用于......
  • 安装Virtualbox Install Virtualbox in Ubuntu 13.10/13.04/12.10/12.04 using PPA
    VirtualBoxisapowerfulOpenSourcevirtualizationsoftwarefromOracle,WhichsupportsLinux,WindowsandMacOS.CurrentstablereleaseisVirtualBox4.3.RecommendedwayofinstallingVirtualboxinUbuntu/LinuxMintisbyaddingPPAtoyourrepositor......
  • VMware Workstation安装MacOS 13
    1.软件的下载与安装①VMwareWorkstation17.0.0(Windows10及以上)下载链接https://www.123pan.com/s/e7LDVv-3lFmH.html激活码:(见文中)(仅供个人学习与交流,请支持正版!)若不支持请更换其他版本VMwareWorkstation16.2.4下载链接https://www.123pan.com/s/e7LDVv-9lFmH.html激活......
  • 剑指 Offer 13. 机器人的运动范围(中等)
    题目:classSolution{//本题的思路为递归法public:intcal(inti){//先写个计算位数和的函数calintsum=0;while(i){sum+=i%10;i/=10;}returnsum;}voidtraversal(inti,i......
  • ARC137D Prefix XORs 题解
    这里的所有下标从\(\bm0\)开始。我们考察一下每次操作后的数列\(a\)会是什么样的。这里用\(a_i\)前面的系数\(x\)表示\(a_i\)贡献了\(x\)次,\(+\)表示异或。\[\begin{matrix}k=0&a_0&a_1&a_2&\cdots&a_{n-1}\\k=1&a_0&a_0+a_1&a_0+a_1+a_2&\cdots&......
  • 代码随笔-某游戏网站数据的爬取
    importrequestsimportparselimportcsvimportre#将表头写入CSV文件withopen('xxxgame.csv',mode='a',encoding='utf-8-sig',newline='')asf:csv_writer=csv.DictWriter(f,fieldnames=['title','nu......
  • i513400f和i512400f差距 i5 13400f和i5 12400f区别对比
    i512400f是6核12线程,默认主频2.5GHz,单核最大加速频率4.4GHz,全核最大加速频率4.0GHz,不支持超频,二级缓存7.5MB三级缓存为18MB,内存支持DDR5-4800/DDR4-3200,TDP功耗为65W.组装电脑选i512400F还是i513400F怎么搭配更合适这些点很重要http://www.adiannao.cn/dui5-13400f7nm工艺采......