首页 > 其他分享 >爬虫模块——数据解析之bs4模块

爬虫模块——数据解析之bs4模块

时间:2023-01-07 12:22:50浏览次数:62  
标签:bs4 text 爬虫 BeautifulSoup soup 模块 find

目录

模块bs4(beautifulSoup)

基本概念

BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.BeautifulSoup会帮你节省数小时甚至数天的工作时间。

源码
官方英文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/
中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

基本使用

1.下载模块bs4,不受版本的限制 ,下载lxml插件

pip3.8 install bs4
pip3.8 install lxml

2.直接导入

from bs4 import BeautifulSoup
text="""
<a href="https:www.baidu.com"> </a>
<p>1234567</p>
<a>222</a>
<a>333</a>
<a>444</a>
"""
soup = BeautifulSoup(text,'lxml') # 第二个参数是解析器,不同的解析器功能不同,最好使用lxml ,需要提前下载
# soup = BeautifulSoup(text,'html')
print(soup.find('a'))  # 拿到a标签
print(soup.find('a').text)  # 拿到a标签里面的文本
print(soup.find('a').get('href'))  # 拿到a标签里面的网址
print(soup.find_all())   # 拿到所有的标签
tag=soup.find_all()
 tag.decompose()  # 删除标签

标签:bs4,text,爬虫,BeautifulSoup,soup,模块,find
From: https://www.cnblogs.com/zhanglanhua/p/17032452.html

相关文章