Beautifulsoup

html标签转化成树结构
结构化输出tag树

soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())

按照点的方式寻找标签

soup.title	#title是标签的名字
# <title>The Dormouse's story</title>

soup.title.name	#title标签的name属性
# u'title'

soup.title.string	#title标签的字符串
# u'The Dormouse's story'

soup.title.parent.name	#父节点的名字
# u'head'

soup.p	#p标签
# <p class="title"><b>The Dormouse's story</b></p>

soup.p['class']	#p标签的class属性
# u'title'

找到所有a标签的某个属性值，比如链接的值

for link in soup.find_all('a'):
    print(link.get('href'))

获取所有的文字内容

soup.get_text()

解析器

不同解析器的区别
创建beautifulsoup对象的时候第二个参数指定了使用的解析器类型，如果不指定bs4将会自动指定，指定的顺序是lxml, html5lib, Python标准库，主要看环境中安装了哪个。

解析器之间的区别

python标准库
BeautifulSoup(markup, "html.parser")
lxml解析
BeautifulSoup(markup, "lxml")
lxml-xml解析
BeautifulSoup(markup, ["lxml-xml"])
BeautifulSoup(markup, "xml")

html5lab解析
BeautifulSoup(markup, "html5lib")
最好的容错性

对于这一段html标签
BeautifulSoup("<a><b /></a>")

html结构解析的内容
自动补全b标签
<html><head></head><body><a><b></b></a></body></html>

xml解析的内容
不会补全内容，并且文档添加了xml文件头
<?xml version="1.0" encoding="utf-8"?>
<a><b/></a>

html解析器也有区别，如果文档是标准的html文件那么不会产生区别，如果不标准会产生轻微的差别

lxml解析
自动忽略了错误标签并且补全了不完整的标签
BeautifulSoup("<a></p>", "lxml")
# <html><body><a></a></body></html>

html5lib解析
html5lib自动补全了所有的标签
# <html><head></head><body><a><p></p></a></body></html>

python内置库
不会补全html文档和标签
# <a></a>

编码

标签：lxml,title,标签,beautifulsoup,BeautifulSoup,soup,html
From： https://www.cnblogs.com/niko5960/p/17227678.html

BeautifulSoup模块的使用方法
本篇文章主要讲bs4模块(BeautifulSoup),这个模块能做么呢？用一句话来概括的话：beautifulsoup4从HTML或XML文件中提取数据的Python库,用它来解析爬取回来的xml。从而从网站中......
python beautifulsoup 安装教程
linux版：pipinstallbeautifulsoup4windows版：下载beautifulsoup安装包下载地址：http://www.cr173.com/soft/109251.html下载解压后，将文件夹放到C:/Pyth......
BeautifulSoup文档3-详细方法 | 如何对文档树进行遍历？
(3-详细方法|如何对文档树进行遍历？)以下实例还是官网的例子：html_doc="""<html><head><title>TheDormouse'sstory</title></head><body><pclass="title"><......
requests库和BeautifulSoup库
requests库requests是一个基于HTTP协议来使用网络的第三库安装pipinstallrequests主要方法方法说明requsts.get()获取网页，对应HTTP中的GET方法requst......
python爬虫（三）- HTML解析之BeautifulSoup4
BeautifulSoup可以从HTML、XML中提取数据。官网https://www.crummy.com/software/BeautifulSoup/官方中文文档https://www.crummy.com/software/BeautifulSoup/bs4/doc.......
beautifulsoup入门
安装beautifulsouppipinstallbeautifulsoup4 简单代码示例：importrequests#导入requests包frombs4importBeautifulSoup#导入beautifulsoup包defgetit()......
python模块之beautifulsoup —— html文件解析以及提取
python模块之beautifulsoup——html文件解析以及提取beautifulsoup简称bs4，能够帮助我们处理html等超标记文本的标签，提取其中的文字，常用于爬虫领域等。bs4及相关模块......
Python 如何使用 BeautifulSoup 实现解析二手房详情页信息并存储文件
一、实战场景Python如何使用BeautifulSoup实现解析二手房详情页信息并存储文件二、知识点Python基础语法Python文件读写BeautifulSoup解析网页requests发送网络请求......
Requests+Etree+BeautifulSoup+Pandas+Path+Pyinstaller应用 | 获取页面指定区域数据
(Requests+Etree+BeautifulSoup+Pandas+Path应用|获取页面指定区域数据存入html、excel文档)1需求来源获取网页指定区域数据，并进行保存；简单说就是pachong的需求了。......
Python爬虫-第三章-4-利用BeautifulSoup模块爬取某网壁纸图库图片
思路：1.提取子页面链接2.访问子链接页面，提取下载地址3.访问下载地址下载内容到本地#DemoDescribe:数据解析bs4importtimeimportrequestsimportrandomimportstringfr......

beautifulsoup

Beautifulsoup

按照点的方式寻找标签

找到所有a标签的某个属性值，比如链接的值

获取所有的文字内容

解析器

解析器之间的区别

编码

相关文章

赞助商

阅读排行