python爬虫学习——bs4

时间：2023-02-23 22:37:50浏览次数：39

标签：python 爬虫 BeautifulSoup bs4 html bs print type

bs4 将一个复杂的html文档转化为一个复杂的树形结构，每个节点都是python对象，所有对象可以分为四种：Tag、NavigableString、BeautifulSoup、Comment

from bs4 import BeautifulSoup
f = open("./htmlDemo1.html","rb")
html = f.read().decode("utf-8")
bs = BeautifulSoup(html,"html.parser")

#print(bs.title)
# print(bs.head)
# print(bs.h1)
#print(type(bs.h1))
#1. Tag 标签及其内容 （只能拿到它所找到的第一个内容）

#print(bs.title.string)
#print(type(bs.title.string))
#2. NavigableString 标签里的内容（字符串）

# print(bs.a.attrs)
# print(bs.p.attrs) #获取标签的属性，并放在字典中

#print(type(bs))
#3. BeautifulSoup 表示整个文档

# print(bs.name)
# print(bs.attrs)
# print(bs)

# print(bs.p.string)
# print(type(bs.p.string))
#4. Comment 是一个特殊的NavigableString，输出的内容不包含注释符号


#文档的遍历

# print(bs.head.contents)
# print(bs.head.contents[1])

#文档的搜索

标签：python,爬虫,BeautifulSoup,bs4,html,bs,print,type
From： https://www.cnblogs.com/he-cheng/p/17148826.html

python numpy 中的冒号
python中冒号实际上有两个意思：1.全部选择matrix1[1,:]表示matrix的第1行的所有元素matrix1[:,1]表示matrix的第1列的所有元素2.表示区间,含左不含右matrix1[1,0:......
python 异常处理
异常异常处理是一种艺术，一旦你掌握，会授予你无穷的力量。我将要向你展示我们能处理异常的一些方式。最基本的术语里我们知道了try/except从句。可能触发异常产生的代码会......
pdf2docx：可将 PDF 转换成 docx 文件的 Python 库
pdf2docx：https://github.com/dothinking/pdf2docx 可将PDF转换成docx文件的Python库。frompdf2docximportparsepdf_file='/path/to/sample.pdf'docx_fi......
python各种推导式(comprehensions)
各种推导式(comprehensions)推导式（又称解析式）是Python的一种独有特性，如果我被迫离开了它，我会非常想念。推导式是可以从一个数据序列构建另一个新的数据序列的结构体。共......
简单友好的 Python 任务调度库
schedule:https://github.com/dbader/schedule该项目人性化的API设计，让开发者仅用几行代码就能轻松实现定时任务。它不依赖任何第三方库，全部代码也就一个文件800多......
python | 使用PIL压缩图片并使用字节流输出
python|使用PIL压缩图片并使用字节流输出因为自己服务器上的博客流量比较小，所以加了这个用来压缩图片，不改变图片大小，将图像质量降低。直接丢代码了：importosfromio......
python基础知识100题-面试
1、一行代码实现1--100之和#利用sum()函数求和#res=sum(range(1,101))#print(res)#50502、如何在一个函数内部修改全局变量#利用global修改全局变量'''a=......
离线安装python第三方库
有些公司，特别是一些大公司，对于网络安全这一块非常重视。上班用的电脑，系统都是公司标装系统，访问外网有很多限制，甚至只允许访问内网环境，不允许直接访问外网环境。这就导致我......
Python之通用装饰器的使用
1.装饰带有参数的函数#添加输出日志的功能deflogging(fn):definner(num1,num2):print("--正在努力计算--")fn(num1,num2)returninner#使用......
python 操作 ES 一、基础操作
示例代码环境python：3.8es：7.8.0环境安装pipinstallelasticsearch==7.8.0fromelasticsearchimportElasticsearch#1、创建ES对象，创建连接es=Elasticsearch(......

python爬虫学习——bs4

bs4 将一个复杂的html文档转化为一个复杂的树形结构，每个节点都是python对象，所有对象可以分为四种：Tag、NavigableString、BeautifulSoup、Comment

相关文章

赞助商

阅读排行