首页 > 编程语言 >python爬虫学习——bs4

python爬虫学习——bs4

时间:2023-02-23 22:37:50浏览次数:39  
标签:python 爬虫 BeautifulSoup bs4 html bs print type

bs4 将一个复杂的html文档转化为一个复杂的树形结构,每个节点都是python对象,所有对象可以分为四种:Tag、NavigableString、BeautifulSoup、Comment

from bs4 import BeautifulSoup
f = open("./htmlDemo1.html","rb")
html = f.read().decode("utf-8")
bs = BeautifulSoup(html,"html.parser")

#print(bs.title)
# print(bs.head)
# print(bs.h1)
#print(type(bs.h1))
#1. Tag 标签及其内容 (只能拿到它所找到的第一个内容)

#print(bs.title.string)
#print(type(bs.title.string))
#2. NavigableString 标签里的内容(字符串)

# print(bs.a.attrs)
# print(bs.p.attrs) #获取标签的属性,并放在字典中

#print(type(bs))
#3. BeautifulSoup 表示整个文档

# print(bs.name)
# print(bs.attrs)
# print(bs)

# print(bs.p.string)
# print(type(bs.p.string))
#4. Comment 是一个特殊的NavigableString,输出的内容不包含注释符号


#文档的遍历

# print(bs.head.contents)
# print(bs.head.contents[1])

#文档的搜索

标签:python,爬虫,BeautifulSoup,bs4,html,bs,print,type
From: https://www.cnblogs.com/he-cheng/p/17148826.html

相关文章

  • python numpy 中的冒号
    python中冒号实际上有两个意思:1.全部选择matrix1[1,:]表示matrix的第1行的所有元素matrix1[:,1]表示matrix的第1列的所有元素2.表示区间,含左不含右matrix1[1,0:......
  • python 异常处理
    异常异常处理是一种艺术,一旦你掌握,会授予你无穷的力量。我将要向你展示我们能处理异常的一些方式。最基本的术语里我们知道了try/except从句。可能触发异常产生的代码会......
  • pdf2docx:可将 PDF 转换成 docx 文件的 Python 库
    pdf2docx:https://github.com/dothinking/pdf2docx 可将PDF转换成docx文件的Python库。frompdf2docximportparsepdf_file='/path/to/sample.pdf'docx_fi......
  • python各种推导式(comprehensions)
    各种推导式(comprehensions)推导式(又称解析式)是Python的一种独有特性,如果我被迫离开了它,我会非常想念。推导式是可以从一个数据序列构建另一个新的数据序列的结构体。共......
  • 简单友好的 Python 任务调度库
    schedule:https://github.com/dbader/schedule该项目人性化的API设计,让开发者仅用几行代码就能轻松实现定时任务。它不依赖任何第三方库,全部代码也就一个文件800多......
  • python | 使用PIL压缩图片并使用字节流输出
    python|使用PIL压缩图片并使用字节流输出因为自己服务器上的博客流量比较小,所以加了这个用来压缩图片,不改变图片大小,将图像质量降低。直接丢代码了:importosfromio......
  • python基础知识100题-面试
    1、一行代码实现1--100之和#利用sum()函数求和#res=sum(range(1,101))#print(res)#50502、如何在一个函数内部修改全局变量#利用global修改全局变量'''a=......
  • 离线安装python第三方库
    有些公司,特别是一些大公司,对于网络安全这一块非常重视。上班用的电脑,系统都是公司标装系统,访问外网有很多限制,甚至只允许访问内网环境,不允许直接访问外网环境。这就导致我......
  • Python之通用装饰器的使用
    1.装饰带有参数的函数#添加输出日志的功能deflogging(fn):definner(num1,num2):print("--正在努力计算--")fn(num1,num2)returninner#使用......
  • python 操作 ES 一、基础操作
    示例代码环境python:3.8es:7.8.0环境安装pipinstallelasticsearch==7.8.0fromelasticsearchimportElasticsearch#1、创建ES对象,创建连接es=Elasticsearch(......