Bs4
- bs4全称:beautifulsoup4,意思为美丽的汤版本4
- 可以在HTML或XML文件中提取数据的网页信息提取库
与re和xpath模块的区别:
- re模块:使用起来过于麻烦且阅读性不好
- xpath模块:需要使用一些特定的语法
- bs4模块:只需要记住一些方法如:find()、find_all(),后面会发现bs4可以认为是re和xpath的混合使用
<!--<h1>hello html</h1>--> <!--<h1 align="center">hello html a</h1>--> <!--<!– h1: 标签–>--> <!--<!– align: 属性–>--> <!--<!– center 属性值–>--> <!--<标签 属性="属性值">被标记的内容</标签>--> <!--<img src="xxx.jpg"/>--> <!--<br />--> <!--<标签 />--> <div id="1" class="h1">周杰伦</div> <div id="2" class="h2">周杰</div> <div id="3" class="h3">杰伦</div> <div id="4" class="h4">周伦</div> <div id="5" class="h5">伦</div> #定位 <!--div -> id:3--> <!--div -> class:h4-->
标签:xpath,Bs4,re,python,----,--,bs4,HTML From: https://www.cnblogs.com/slowlydance2me/p/16835792.html