爬虫 - 网页解析库

时间：2024-07-09 16:31:19浏览次数：21

BeautifulSoup

BeautifulSoup 是一个Python库，用于从 HTML 提取数据

它提供了简单而灵活的方式来遍历和搜索文档树，以及解析和提取所需的数据

安装

BeautifulSoup的安装涉及第三方的扩展

pip3 install beautifulsoup4

Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml

pip install lxml

基本使用

from bs4 import BeautifulSoup
import requests


url = 'https://www.cnblogs.com'
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'}
res = requests.get(url=url,headers=header)
soup = BeautifulSoup(res.text,'lxml')
show = soup.prettify() #处理好缩进，结构化显示
print(show)

遍历文档树

遍历文档树：即直接通过标签名字选择，特点是选择速度快，但如果存在多个相同的标签则只返回第一个

soup为上文获取的网页解析对象

soup.标签名：获取标签对象
soup.标签名.name：获取标签的名称
soup.标签名.attrs获取标签的属性
获取标签的内容
- soup.标签名.string：某标签下的文本只有一个时，取到，否则为None
- soup.标签名.strings：拿到一个生成器对象, 取到某标签下所有的文本内容
- soup.标签名.text：取到某标签下所有的文本内容
- soup.标签名.stripped_strings：去掉空白
嵌套选择
子节点、子孙节点
- soup.标签名.contents：某标签下所有子节点
- soup.标签名.children：得到一个迭代器,包含某标签下所有子节点
父节点、祖先节点
- soup.标签名.parent：获取父节点
- soup.标签名.parents：获取父节点的父节点，生成器

搜索文档树

find 和 find_all

两者的唯一区别是：find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果

name：搜索name参数的值可以使任一类型的过滤器
keyword：key=value的形式，value可以是过滤器：字符串 , 正则表达式,列表, True

注意class是关键字，所以要加_
按照类名查找
查找class = post-meta-item 的span标签
limit：find_all限制条数
查找class = post-meta-item 的span标签，输出两条结果

五种过滤器

字符串：即标签名
正则表达式
列表
如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回.下面代码找到文档中所有<a>标签和<p>标签:
True
可以匹配任何值,下面代码查找到所有的tag,但是不会返回字符串节点

CSS选择器

暂不赘述

Xpath

from lxml import etree

XPath 是一门在 XML 文档中查找信息的语言

import requests
from lxml import etree

header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'}
url = 'https://www.cnblogs.com'
res = requests.get(url=url,headers=header)
html = etree.HTML(res.text)

节点

所有节点
指定节点（结果为列表）
子节点，子孙节点
父节点

属性匹配

文本获取
属性获取

表达式	含义
nodename	选取此层级节点下的所有子节点
/	代表从根节点进行选取
//	可以理解为匹配，就是在所有节点中选取此节点，直到匹配为止
.	选取当前节点
…	选取当前节点上一层（上一级目录）
@	选取属性（也是匹配）

标签：网页,获取,url,标签,爬虫,soup,文档,解析,节点
From： https://www.cnblogs.com/yigehulu/p/18284221

C#解析DL/T645电力数据
DL/T645协议详细解析DL/T645是我国电力行业的标准，主要适用于电表与计算机之间的通讯。帧格式帧起始符68H标识一帧信息的开始，其值为68H=01101000B地址域A0～A5地址域由6个字节构成，每字节2位BCD码，地址长度可达12位十进制数。每块表具有唯一的通信地址，且与物理层信......
地址解析成省+市+区+详细地址的形式
收件地址解析成省+市+区+详细地址的形式原文链接将地址格式化成省市区，很多API有提供这样的功能，但是基本是收费的。在网上找了个帖子改造了一下功能代码packagecom.ruoyi.iot.common.utils;importcn.hutool.core.io.IoUtil;importcom.alibaba.fastjson.JSON;importcom......
【一步步开发AI运动小程序】十九、运动识别中如何解析RGBA帧图片？
引言最近有不少开发者向我们咨询，像体测、赛事等应用场景中，需要保存运动过程的图像，如何将相机抽取的RGBA帧图像解析成.jpg或.png格式的图像？今天我们就为您介绍相应的解决方案。一、RGBA图像结构。RGBA图像为一维数组，每四个元素描写一个图像像素，前三元素为颜色值，第四个元素为透......
掌握《卧龙：苍天陨落》风灵月影修改器：全面解析与使用技巧
《卧龙：苍天陨落》作为一款由TeamNINJA倾力打造的动作角色扮演游戏，以其独特的暗黑三国风格和深度的战斗系统吸引了众多玩家。然而，对于一些追求极致体验的玩家来说，使用修改器可以极大地丰富游戏的乐趣。其中，风灵月影修改器因其稳定性和功能多样性而备受推崇。本文旨在详细介绍如......
C#中的并发工具：Task Parallel Library(TPL)深度解析
......
基于SpringBoot的酒店订房系统+82159（免费领源码）可做计算机毕业设计JAVA、PHP、爬虫、A
springboot酒店订房系统摘要随着科学技术的飞速发展，社会的方方面面、各行各业都在努力与现代的先进技术接轨，通过科技手段来提高自身的优势，酒店订房系统当然也不能排除在外。酒店订房系统是以实际运用为开发背景，运用软件工程开发方法，采用springboot技术构建的一个管理系统......
C# Equals 和 GetHashCode 方法认知及Distinct方法解析
参照：生成C#Equals和GetHashCode方法重写-VisualStudio(Windows)|MicrosoftLearn如何修改字符串内容-C#|MicrosoftLearn在C#中，Equals 和 GetHashCode 方法用于对象的比较和哈希值计算。它们在值类型和值类型的行为上有所不同。值类型（ValueTypes）Equals......
PostgreSQL的AutoVacuum原理及autovacuum不工作问题解析
1、AutoVacuum概述PostgreSQL数据库是有数据清理的，有人工执行清理，也有自动清理，但是这2种的清理方式对性能是有不同的影响，特别是OLTP环境中，每次不管是人工清理还是自动清理deadtuple，都会对数据库的IO有明显的影响，基于PostgreSQL的原理每个表中的行会存在多个版本的数据，为了完成......
SV/UVM 类的多态和虚方法解析
类具有三大特性：封装/继承/多态，多态是面对对象编程中最神奇的特征，也是最抽象和难以理解的特征。对于初学者来说，最好对sv有了一定了解，在掌握了封装和继承之后再学习多态会更容易理解。1.类的继承首先复习一下继承的概念：继承是利用共性构建一个基类......
ScreenAI ——能理解从信息图表到用户界面的图像和文本算法解析
概述论文地址：https://arxiv.org/pdf/2402.04615.pdf信息图表（图表、示意图、插图、地图、表格、文档布局等）能够将复杂的数据和想法转化为简单的视觉效果，因此一直以来都被视为传播的重要元素。这种能力来自于通过布局和视觉线索使信息直观易懂。在当今日益数字化的世界中，移......