BeautifulSoup基本使用

BeautifulSoup 简称 bs4，和 lxml 一样，是个 html 的解析器，主要功能也是解析和提取数据

缺点：效率没有 lxml 高；优点：接口设计人性化，使用方便

安装：pip install bs4，安装完成即可通过 from bs4 import BeautifulSoup导入依赖开始使用：

from bs4 import BeautifulSoup

# 加载 html 文件(如果要加载服务器响应内容,则把第一个参数换成服务器响应内容即可)
html = BeautifulSoup(open('./html/test.html', encoding='utf-8'), 'lxml')
# 获取第一个 a 标签
a_first = html.a
# 获取 a_first 属性及属性值
attrs = a_first.attrs

'''
获取第一个符合条件的数据
'''
a = html.find('a')
# 获取 title 为 a2 的 a 标签并输出
print(html.find('a', title='a2'))
# 获取 class 为 c1 的 a 标签并输出(class 是关键字,所以要加下划线作区分)
print(html.find('a', class_='c1'))

'''
获取所有符合条件的数据
'''
print(html.find_all('a'))
# 获取所有 a 标签和 span 标签并输出
print(html.find_all(['a', 'span']))
# 获取所有 li 标签取前两个并输出
print(html.find_all(['li'], limit=2))

# 获取所有 a 标签并输出
print(html.select('a'))
# 获取所有的 a 标签和 li 标签并输出
print(html.select('a,li'))
# 获取 class 为 c1 的标签并输出(.表示类选择器)
print(html.select('.c1'))
# 获取 id 为 l1的标签并输出(#表示 id 选择器,id 不能只有一个数字否则会报错)
print(html.select('#l1'))
# 获取有 id 属性的 li 标签并输出
print(html.select('li[id]'))
# 获取 id 为 l2 的 li 标签并输出
print(html.select('li[id=l2]'))
# 获取 div 标签下的 li 标签并输出
print(html.select('div li'))
# 获取 div 标签的第一级子标签 ul 并输出(> 获取的是儿子标签,不能获取到 孙子及以下标签)
print(html.select('div > ul'))

'''
获取 id 为 d1 的标签的文本内容并输出
注意: 如果标签中只有内容那么两种方式都可以获取到,如果标签中既有子标签还有内容那么只有 get_text()可以获取到文本内容
推荐使用 get_text()获取文本内容
'''
print(html.select('#d1')[0].string)
print(html.select('#d1')[0].get_text())
# 获取 id 为 d1 的标签的名称并输出
print(html.select('#d1')[0].name)

标签：基本,标签,BeautifulSoup,li,获取,html,使用,print,select
From： https://www.cnblogs.com/Y-wee/p/17034765.html

使用C#代码下载.nupkg 包
代码：1publicstaticasyncTaskDownloadAsync(stringpackageId,stringversion)2{3varpackage=newPackageIdentity(package......
理财笔记-股市基本知识1
目录一.名词解释二.什么情况下要做买入交易？三.什么情况下要做卖出交易？四.股票投资最主流的3种赚钱策略一.名词解释：一，净利润（要稳定增加，因为净利润就是企业的赚钱能......
查看centos7系统资源使用情况
1. df-h 2.uptime3.free-h4.vmstat5.top6.ps-aux--sort-pcpu|less ps-aux--sort-pmem|less7.ps-ef|grepjava8.iostat------------......
DevOps实战系列【第十三章】：流水线应用工具Blue Ocean使用
个人亲自录制全套DevOps系列实战教程：手把手教你玩转DevOps全栈技术BlueOcean图形化工具可以通过插件的方式安装到jenkins，搜索“BlueOcean”，安装后重启即可。由于......
DevOps实战系列【第十章】：详解Jenkins Pipeline基本概念和语法
个人亲自录制全套DevOps系列实战教程：手把手教你玩转DevOps全栈技术流水线基本概念官方中文手册：https://www.jenkins.io/zh/doc/book/pipeline我们......
ESP32中断的使用
定时器中断硬件中断attachInterrupt(pin,ISR,mode);pin管脚号ISR中断处理函数mode触发中断的模式，可以使用的值有。LOW低电平触发CHANGE管脚电平变化......
使用ThreadPoolExecutor and schedule进行创建线程池（多线程-定时任务-数据同步-任务队
使用ThreadPoolExecutorandschedule进行创建线程池（多线程-定时任务-数据同步-任务队列）#使用ThreadPoolExecutorandschedule进行创建线程池（多线程-定时任务-数据同步-......
WiFi的使用
WiFi的连接constchar*ssid="WiFi名称";constchar*password="WiFi密码";//设置模式WiFi.mode(WIFI_STA);//开始连接WiFi.begin(ssid,password);//检查......
使用 Helm 为 Kubernetes 捆绑 YAML
微服务架构的引入彻底改变了当今软件的开发方式。后微服务架构取代了单体，容器取代了虚拟机。通过这种转换，构建应用程序因多个容器而变得复杂。容器编排是一个新的瓶颈，被......
使用karabiner elements 小小改动一下macos文件的管理器finder快捷键
在苹果macos系统下，默认的文件管理器finder中，回车键居然是文件重命名的功能，TMD真不爽啊。不管果粉能给出几万个理由，但是我用着不爽是事实啊，我买苹果设备是花了钱的，凭啥......

BeautifulSoup基本使用

BeautifulSoup基本使用

相关文章

赞助商

阅读排行