首页 > 其他分享 >爬虫之bs4

爬虫之bs4

时间:2024-02-23 16:46:43浏览次数:27  
标签:name bs4 list 爬虫 节点 soup print find

1. 节点选择器
都是Tag类型,直接调用节点名称可选择节点,调用string属性得到节点内容文本。

2. 提取信息

  • 获取名称
    # print(soup.title.name)
  • 获取属性
# print(soup.p.attrs)            
# print(soup.p['name'])
# print(soup.p['class'])
  • 获取内容
    print(soup.head.string)
  • 嵌套选择
    print(soup.head.title.string)

3. 关联选择

  • 子节点和子孙节点
print(soup.p.contents)        
# contents属性获取直接子节点,返回列表
print(soup.p.children)        
# 相同结果
for i, child in enumerate(soup.p.children):
     print(i, child)

print(soup.p.descendants)     
# descendants属性获得所有子孙节点
for i, child in enumerate(soup.p.descendants):
    print(i, child)
  • 父节点和祖先节点
print(soup.a.parent)        # 父节点
print(soup.a.parents)       # 祖先节点
print(list(enumerate(soup.a.parents)))
  • 兄弟节点
print('Next Sibling', soup.a.next_sibling)                          # 下一个兄弟节点
print('Prev Sibling', soup.a.previous_sibling)                      # 上一个兄弟节点
print('Next Siblings', list(enumerate(soup.a.next_siblings)))       # 后面所有兄弟节点
print('Prev Siblings', list(enumerate(soup.a.previous_siblings)))   # 前面所有兄弟节点

4. 方法选择器(常用)

  • find_all:返回多个
# 根据标签查找,先查ul,再查li下的文本
for ul in soup.find_all(name='ul'):
     print(ul.find_all(name='li'))
     for li in ul.find_all(name='li'):
         print(li.string)

 # 根据属性查找
 print(soup.find_all(attrs={'id': 'list-1'}))     查询id为list_1
 print(soup.find_all(attrs={'name': 'elements'}))
# 等价查询
 print(soup.find_all(id='list-1'))
 print(soup.find_all(class_='element'))

# 根据文本查询
import re
print(soup.find_all(string=re.compile('关键字')))
  • find:返回单个

标签:name,bs4,list,爬虫,节点,soup,print,find
From: https://www.cnblogs.com/hellojacker/p/18029878

相关文章

  • 爬虫_05days ↑
    scrapy架构介绍#scrapy:爬虫框架---》使用scrapy创建爬虫项目#pipinstallscrapy#创建scrapy项目 scrapystartproject项目名#架构spiders:爬虫,主要是咱们写代码的地方---》设置起始爬取的地址--》解析数据engine:引擎,大总管,控制数据的整体流动scheduler:调度器,待爬取的地址......
  • 爬虫_04days
    自动登录cnblogs--获取cookieimporttimeimportjsonfromseleniumimportwebdriverfromselenium.webdriver.common.byimportByfromselenium.webdriver.chrome.optionsimportOptions#####绕过浏览器检测到自动化软件控制options=Options()options.add_argum......
  • 爬虫简介
    爬虫分类:  通用爬虫:抓取系统重要组成部分,抓取的是一个整张页面的数据  聚焦爬虫:是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容  增量式爬虫:检测网站中数据更新的情况,指挥抓取网站中最新更新出来的数据爬虫的矛与盾:反爬机制  门户网站,可以通过制定相应......
  • 爬虫03_days
    selenium介绍#1由于requests不能执行js---》逐个分析ajax请求--》模拟发送获取数据 -使用requests爬取的数据很大概率跟在浏览器中看到的不一样-requests不能执行js#2seleniumselenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaS......
  • Scrapy爬虫框架
    一、安装Scrapypipinstallscrapy二、创建scrapy项目scrapystartprojectmy_spider三,创建爬虫文件scrapygenspiderexampleexample.com#example文件名称#example.com爬取网站地址#如:scrapygenspiderbaidubaidu.com出现下图就创建成功 四、运行刚才......
  • python 爬虫模板
    前言在我们写爬虫的时候,一般想要的数据都在详情页里面,一般代码进入详情页参数,需要首页里面寻找,所以爬这样的网站,需要定义一个模板我的模板如下: importrandomimporttimeimportrequestsfromauctionimportlogtoolfromauction.BaseCrawlerimportBaseCrawlercla......
  • bs4 css选择器
    数据准备html_doc="""<html><head><title>TheDormouse'sstory</title></head><body><pid="my_p"class="title"><bid="bbb"class="boldest">TheDormou......
  • python实战:用requests+做爬虫
    一,安装requests1,用pip安装(venv)liuhongdi@192news%pip3installrequests2,查看所安装库的版本:(venv)liuhongdi@192news%pip3showrequestsName:requestsVersion:2.31.0Summary:PythonHTTPforHumans.Home-page:https://requests.readthedocs.ioAu......
  • bs4搜索文档树
    数据准备:#导入模块frombs4importBeautifulSoup#查询数据文本html_doc="""<html><head><title>TheDormouse'sstory</title></head><body><pclass="title"id='id_xx'xx='zz'&......
  • bs4遍历文档树
    数据准备:#导入模块frombs4importBeautifulSoup#查询数据文本html_doc="""<html><head><title>TheDormouse'sstory</title></head><body><pclass="title"id='id_xx'xx='zz'&......