Python的Bs4解析库的学习与使用

时间：2022-10-19 11:35:29浏览次数：56

标签：soup Python 标签 BeautifulSoup Bs4 table 解析 find 属性

Beautiful Soup 简称 BS4（其中 4 表示版本号）是一个 Python 第三方库，它可以从 HTML 或 XML 文档中快速地提取指定的数据。提供一些简单的、python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据。

数据解析原理：

标签定位
提取标签、标签属性中存储的数据值

bs4数据解析原理：

1.实例化一个BeautifulSoup对象，并且将页面原码数据加载到该对象中
2.通过调用BeautifulSoup对象中相关的属性或方法进行标签定位和数据提取

bs4中的一些重要的属性

（1）根据标签名查找
    - soup.a   只能找到第一个符合要求的标签
（2）获取属性
    - soup.a.attrs  获取a所有的属性和属性值，返回一个字典
    - soup.a.attrs['href']   获取href属性
（3）获取其标签内的内容
    - soup.a.string
    - soup.a.text
    - soup.a.get_text()
   注意:如果标签还有标签，那么string获取到的结果为None，而其它两个，可以获取文本内容

以下是我自己在使用过程中总结的一些步骤,之后还会进行详细的讲解

把页面源代码交给BeautifulSoup进行处理, 生成bs对象 page = BeautifulSoup(resp.text, "html.parser") # 指定html解析器,如果不指定解析器不会报错,但是会爆红
从bs对象中查找数据
#find(标签, 属性=值)
#find_all(标签, 属性=值)
在指定属性的过程中,例如class和id等是python的关键字,所以直接使用python关键字会发现报错,有两种解决方式:\ 第一种是在关键字后加_可解决问题,例如:class_ table = page.find("table", class_="hq_table")\ 第二种是使用attrs{},例如: table = page.find("table", attrs={"class": "hq_table"})

Bs4下载安装

由于 Bautiful Soup 是第三方库，因此需要单独下载，下载方式非常简单，执行以下命令即可安装：

pip install bs4

pip install bs4 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install lxml -i https://pypi.tuna.tsinghua.edu.cn/simple

Bs4解析对象

#导入解析包
from bs4 import BeautifulSoup
#创建beautifulsoup解析对象
soup = BeautifulSoup(此处是我们需要使用的文件的名称, 'html.parser')

Bs4 库中定义了许多用于搜索的方法，find() 与 find_all() 是最为关键的两个方法

find_all()\ find_all() 方法用来搜索当前 tag 的所有子节点，并判断这些节点是否符合过滤条件，最后以列表形式将符合条件的内容返回.\
find()\ find() 方法与 find_all() 类似，不同之处在于 find_all() 会将文档中所有符合条件的结果返回，而 find() 仅返回一个符合条件的结果

标签：soup,Python,标签,BeautifulSoup,Bs4,table,解析,find,属性
From： https://blog.51cto.com/u_15638660/5769155

怎么在线预览.doc，.docx，.ofd，.pdf，.wps，.cad文件以及Office文档的在线解析方式。
前言Office文件在线预览是目前移动化办公的一种新趋势。Office在线预览指的是Office系列的文件在线查看而不依附域客户端的存在。在浏览器或者浏览器控件中可以预览查看W......
python常识系列07-->python利用xlwt写入excel文件
前言读书之法，在循序而渐进，熟读而精思。——朱熹抽空又来写一篇，毕竟知识在于分享！一、xlwt模块是什么python第三方工具包，用于往excel中写入数据；（ps：只能创建新表格，不能修改......
Day4：Python列表、元组的方法
1、编码ascii：字母，数字，特殊字符：1个字节，8位Unicode：16位两个字节升级32位四个字节utf-8：最少一个字节8位表示。英文字母8位1个字节......
python manage.py startapp XXX报错【TypeError: unsupported operand type(s) for /:
查看日志提示【 'DIRS':[BASE_DIR/'templates']】【 File"D:\study\test\djangoProject\djangoProject\settings.py",line57,in<module>】找到setting文件的li......
【CAD开发】glTF和b3dm文件格式读取三（Python, JS）
1、简介glTF格式使用scene对象来描述场景。对glTF数据的JSON文件进行解析时，对场景结构的遍历也是从scene对象开始。每个scene对象引用了一个nodes数组，nodes数组通过索引引......
粒子群优化算法-Python版本和Matlab函数调用
前两天分享了粒子群优化算法的原理和Matlab原理实现，本文分享一下Python代码下的PSO实现以及Matlab下的粒子群函数。前文参看：粒子群优化算法（PSO）以Ras函数（Rastrigin's......
Python 让图像变卡通图
要创造卡通效果，我们需要注意两件事:边缘和调色板，这就是照片和卡通的不同之处。为了调整这两个主要组成部分，我们将经历四个主要步骤：加载图像创建边缘减少调色板将边缘掩模与......
Python中的枚举类enum
0.本文来历上一篇文章，我写了Pytest插件pytest-order指定用例顺序我当时就比较好奇它的顺序和英文的对应关系，肯定是写死的，找了下就发现在源码sorter.py中定义了一......
linux—— 使用gcc解析程序四个阶段
(文章目录)一、gcc1.gcc的安装yum-yinstallgcc-c++autoconfpcrepcre-develmakeautomakeyum-yinstallwgethttpd-toolsvim2.gcc的默认使用[yzq@VM-8-8......
Python教程Day03-Python输出、输入、转换数据类型、运算符
一、输出作用：程序输出内容给用户print('helloPython')age=18print(age)#需求：输出“今年我的年龄是18岁”1、格式化输出格式化输出即按照一定的格式输出内容1.1格......

Python的Bs4解析库的学习与使用

Bs4下载安装

Bs4解析对象

相关文章

赞助商

阅读排行