首页 > 编程语言 >python 爬虫 Bs4解析 ----HTML语法

python 爬虫 Bs4解析 ----HTML语法

时间:2022-10-28 13:45:22浏览次数:58  
标签:xpath Bs4 re python ---- -- bs4 HTML

Bs4

  • bs4全称:beautifulsoup4,意思为美丽的汤版本4
  • 可以在HTML或XML文件中提取数据的网页信息提取库

与re和xpath模块的区别:

  • re模块:使用起来过于麻烦且阅读性不好
  • xpath模块:需要使用一些特定的语法
  • bs4模块:只需要记住一些方法如:find()、find_all(),后面会发现bs4可以认为是re和xpath的混合使用


 

 

<!--<h1>hello html</h1>-->
<!--<h1 align="center">hello html a</h1>-->
<!--&lt;!&ndash; h1: 标签&ndash;&gt;-->
<!--&lt;!&ndash; align: 属性&ndash;&gt;-->
<!--&lt;!&ndash; center 属性值&ndash;&gt;-->

<!--<标签 属性="属性值">被标记的内容</标签>-->

<!--<img src="xxx.jpg"/>-->
<!--<br />-->
<!--<标签 />-->

<div id="1" class="h1">周杰伦</div>
<div id="2" class="h2">周杰</div>
<div id="3" class="h3">杰伦</div>
<div id="4" class="h4">周伦</div>
<div id="5" class="h5">伦</div>

#定位
<!--div -> id:3-->

<!--div -> class:h4-->

 

标签:xpath,Bs4,re,python,----,--,bs4,HTML
From: https://www.cnblogs.com/slowlydance2me/p/16835792.html

相关文章

  • 使用parseFloat()生成随机数的时候进行修约会出现“-0”
    今天遇到了个很奇怪的坑 使用parseFloat()生成随机数的时候进行修约会出现“-0”这个字符串记得parseFloat()是返回的浮点数来着,最开始以为是精度的问题后来调试的时......
  • docker 常用命令
     dockerps 查看运行中的容器dockerimages 查看本机镜像dockerpull XXX:123 拉取名称为xxx的版本号为123的镜像dockersearchxxx 查找名称为xxx的镜像d......
  • 某CTF内存分析
    1.获取mem.dump的系统版本使用命令volatility-flocalfileimageinfo  (显示该dump文件镜像的详细信息) 2.查看该dump的内存程序,找出用来取证的工具使用命令volatili......
  • SpriteKit 学习链接
    SpriteKit学习链接:射击游戏,GitHub地址小猫躲雨,GitHub地址"割绳子“游戏,下载地址......
  • 如何在填报场景中使用数据绑定获取数据源
    背景在公司的日常业务中,存在不少数据的收集提取需求,大部分公司会采取Excel来完成数据的收集和汇总,但这项工作会让负责信息收集的业务人员相当头大。虽然提前做好了数据收......
  • Kafka Consumer细节
    pollIO模型与内部线程Consumer消费多个来自多个Topic的多个分区的数据,在新版本中,它使用类似select、epoll这种IO模型来达到用一个线程管理多个来源的数据的功能。不过,Co......
  • Linux高频命令
    Linux`pwd指令查看工作目录。cd指令切换工作目录。which指令查找一个执行文件所在的路径。ls显示文件信息。rm删除文件。touch修改一个文件的时间戳,如果文件不存在会触......
  • jenkins部署项目
    后端jar方式打包PACKAGE_NAME=cloud-eureka.jar#归档的包名#上传云存储python/home/shell/upload_source_package.py$JOB_BASE_NAME$GIT_COMMIT$WORKSPACE/t......
  • 二叉树路径问题: 合集--所有路径-路径总和-路径总和 II-路径总和 III-最大路径和
    文章目录​​[257.二叉树的所有路径](https://leetcode-cn.com/problems/binary-tree-paths/)​​​​[112.路径总和](https://leetcode-cn.com/problems/path-sum/)​​......
  • 结构性型模式概述01--代理模式
    结构性型模式概述:Java-JDK动态代理详解(AOP)动态代理是如何实现的?JDKProxy和CGLib有什么区别?文章目录​​结构性型模式概述:​​​​[Java-JDK动态代理详解(AOP)](java......