BeautifulSoup解析数据的属性与方法

时间：2023-01-08 09:55:32浏览次数：47

标签：标签 BeautifulSoup soup div 解析 find select 属性

 1 功能描述
 2 pip install bs4
 3 pip install lxml
 4 
 5 1.实例化一个BeautifulSoup对象，并且将页面源代码数据加载到该对象中
 6 可以将本地的html文档中的数据加载到该对象中
 7 fp= open('test.html','r',encoding='utf-8')
 8 soup = BeautifulSoup(fp,'lxml')
 9 第一个参数为文件源代码，第二个参数为解码方式，不变
10 也可以将互联网上获取的页面源代码加载到该对象中
11 
12 2.通过调用BeautifulSoup对象中的相关方法或者属性进行标签定位和数据提取
13 
14 '''
15 from bs4 import BeautifulSoup
16 fp = open('test.html','r',encoding='utf-8')
17 soup = BeautifulSoup(fp,'lxml')
18 # 提供的用于数据解析的方法或者属性有
19 #soup.tagName   标签名称
20 soup.div    #返回的是文档中第一次出现的标签，
21 # soup.find('标签名称')，返回的是文档中第一次出现的标签，和soup.div效果是一样的
22 soup.find('div')
23 # 属性定位
24 # 属性为class，但是要在这个属性名是关键字，所以后面加一个下划线_
25 # soup.find('div',class_/id/attr='song')
26 soup.find('div', class_='song')
27 # 返回所有a标签，类型为列表
28 soup.find_all('a')
29 # soup.select('.某种选择器（id,class,标签等）')
30 soup.select('.tang')
31 # 层级筛选器
32 soup.select('.tang>ul>li>a')    # >表示一个层级，类似于目录，返回是列表
33 soup.select('.tang>ul>li>a')[0] #表示返回列表的第一个元素
34 soup.select('.tang>ul>li>a')
35 soup.select('.tang>ul a')   # 标签ul与标签a之前有个空格，该空格表示的是多个层级，而>表示一个层级
36 # 获取标签之间的文本数据，或者属性值
37 # 调用方法或者属性
38 soup.a.text
39 soup.a.string
40 soup.a.get_text()
41 # 区别是：text/get_text()可以获取该标签下的所有文本内容，不是直系的也可以获取，而string只能获取该标签的直系内容。
42 soup.find_all('div', class_='song').text
43 soup.find_all('div', class_='song').string
44 # 获取该标签的属性值
45 soup.select('.tang>ul a')[0]['herf']

标签：标签,BeautifulSoup,soup,div,解析,find,select,属性
From： https://www.cnblogs.com/chengshu1258/p/17034131.html

LLVM IR 代码生成与解析器、抽象语法树
LLVMIR代码生成与解析器、抽象语法树概述将基于词法分析器，为Kaleidoscope构建一个完整的解析器（Parser）。通过解析器，我们可以定义并构造抽象语法树（AbstractSyntaxTre......
直接获取节点;操作节点属性
直接获取节点的几种方式 <!DOCTYPEhtml><html><head><metacharset="UTF-8"><title></title><s......
直接获取节点;操作节点属性
直接获取节点的几种方式 <!DOCTYPEhtml><html><head><metacharset="UTF-8"><title></title><s......
06-作用域+预解析
js作用域js作用域：就是代码名字(变量)在某个范围内起作用和效果，目的是为了提高程序的可靠性更重要的是减少命名冲突js作用域在(es6)之前有：全局作用域和局部作用域......
JavaScript学习笔记—数组length属性
length属性返回数组的长度（数组元素的个数）。语法：数组.length/**连续的数组，可以获取数组长度（元素个数）*非连续的数组，获取数组最大索引+1*/vararr=[1,4,10];arr......
python网络爬虫数据解析之正则
本节内容，讲解爬取网络图片，利用正则匹配图片地址请求网页之后，响应部分内容如下图： 1时间：2023/1/710:422功能描述31.进行指定标签的定位42.标签或者标签对......
JavaScript学习笔记-对象特殊属性名需采用["属性名"]方式
如果要使用特殊的属性名，不能采用.的方式来操作，需要使用另一种方式：语法：对象["属性名"]=属性值读取时也需要采用这种方式使用[]这种形式去操作属性，更加......
文件上传之解析漏洞及编辑器安全
各个平台解析漏洞讲解参考文献：中间件漏洞IIS6/7简要说明-本地搭建Apache配置安全—vulhub.htaccessApache解析漏洞-低版本符合Apache低版本就有漏洞x.php.xxx.yyy......
Spring5 IOC容器解析——XML配置的资源定位、加载、解析、注册分析
从FileSystemXmlApplicationContext开始ApplicationContextapplicationContext=newFileSystemXmlApplicationContext(xmlPath);由上面的入口进入到构造方法中public......
Spring5 IOC容器解析——注解配置的资源定位、加载、解析、注册分析
AnnotationConfigApplicationContext使用AnnotationConfigApplicationContext可以实现基于Java的配置类(包括各种注解)加载Spring的应用上下文。避免使用application.xml......

BeautifulSoup解析数据的属性与方法

相关文章

赞助商

阅读排行