目录
模块bs4(beautifulSoup)
基本概念
BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.BeautifulSoup会帮你节省数小时甚至数天的工作时间。
源码
官方英文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/
中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
基本使用
1.下载模块bs4,不受版本的限制 ,下载lxml插件
pip3.8 install bs4
pip3.8 install lxml
2.直接导入
from bs4 import BeautifulSoup
text="""
<a href="https:www.baidu.com"> </a>
<p>1234567</p>
<a>222</a>
<a>333</a>
<a>444</a>
"""
soup = BeautifulSoup(text,'lxml') # 第二个参数是解析器,不同的解析器功能不同,最好使用lxml ,需要提前下载
# soup = BeautifulSoup(text,'html')
print(soup.find('a')) # 拿到a标签
print(soup.find('a').text) # 拿到a标签里面的文本
print(soup.find('a').get('href')) # 拿到a标签里面的网址
print(soup.find_all()) # 拿到所有的标签
tag=soup.find_all()
tag.decompose() # 删除标签
标签:bs4,text,爬虫,BeautifulSoup,soup,模块,find
From: https://www.cnblogs.com/zhanglanhua/p/17032452.html