首页 > 其他分享 >爬虫入门--BS4

爬虫入门--BS4

时间:2023-03-14 18:14:41浏览次数:31  
标签:soup -- 标签 爬虫 BeautifulSoup BS4 tagName 选择器 select

下载

  • pip install bs4
  • pip install lxml

实例化对象

  1. 本地读取数据
from bs4 import BeautifulSoup
fp = open('./test.html', 'r', encoding='utf-8')
soupLocal = BeautifulSoup(fp, 'lxml')
  1. 从网络读取数据
import requests
from bs4 import BeautifulSoup
page_text = requests.get('https://www.baidu.com').text
soupNet = BeautifulSoup(fp, 'lxml')

find和findAll

  • soup.tagName
    返回文档中第一次出现的标签(单个)
  • soup.find('tagName')
    返回文档中第一次出现的标签(单个),等同soup.tagName
  • soup.find('tagName',属性=)
    返回文档中第一次出现的标签(单个),带属性定位class_/hres/src等
  • soup.findAll('tagName')
    返回符合要求的所有标签(列表)

select

  • soup.select('.du')
    选择器查找,class/id/标签等(列表)
  • soup.select
    相连层级选择器(列表),'>'连接,表示层间相连
  • print(soup.select('.tang > ul > li > a')[0])
  • soup.select
    多层层级选择器(列表),空格连接,表示不管中间相隔几个层级
  • print(soup.select('.tang > ul a')[0])

标签:soup,--,标签,爬虫,BeautifulSoup,BS4,tagName,选择器,select
From: https://www.cnblogs.com/mangoai/p/17215814.html

相关文章

  • 20230314-Python-文件的读写
    1.文件读取          2.文件写入     ......
  • Avnet EDI需求分析
    Avnet安富利集团(以下简称Avnet)成立于1921年,具有悠久的历史,经过多年的发展,已经成为全球领先的技术解决方案分销商之一。Avnet连接世界领先的技术提供商和超过10万的涵盖广泛......
  • 「双指针&前缀和&回溯法」weight
    本题为3月14日23上半学期集训每日一题中B题的题解题面题目描述已知原数列\(a_1,a_2,\cdots,a_n\)中的前1项,前2项,前3项,...,前n项的和,以及后1项,后2项,后3项,...,后n项......
  • 前端奇异问题集锦
    1、点击事件不生效@on-click不生效改成@click生效了  2、iview和viewdesign不一样 3、子组件引用不生效import{}from''import form''有无大括号的原......
  • P1196 [NOI2002] 银河英雄传说
    有一个30000*N(i)的列队,2种操作1.Mi,j   i行移动到j行的末尾2.Ci,j  询问i行和j行的距离(如果在同一列) #include<bits/stdc++.h>usingnamespacestd;......
  • B/S WEB项目文件夹上传下载解决方案
    HTML部分 <%@ Page Language="C#" AutoEventWireup="true" CodeBehind="index.aspx.cs" Inherits="up6.index" %><!DOCTYPE html PUBLIC "-//W3C//DTDXHTML1......
  • 安卓自动化常用框架
    Rhino JS解析器Rhino是用纯Java写成的JavaScript的开放源代码实现。它最常被用于嵌入Java应用程序,以便为终端用户提供脚本的能力。RingoJSjava.awt.Robotjava自......
  • linux 命令行
     linux命令的参数,可以简写  ls-l-hls-lhls-hlcd(更改目录的意思)的用法cd命令(空格)可选参数文件夹几个特殊的目录.当前工作目录..上一级工......
  • 南京凯盛携手图扑共建智慧水泥工厂
    前言自2020年以来,图扑软件和南京凯盛国际工程有限公司,合作建设了多个水泥工厂数字孪生项目,其服务客户包括冀东水泥、南方水泥、西南水泥、中联水泥、昆钢嘉华等。孪生工......
  • Docker学习
    阿里云镜像获取地址:https://cr.console.aliyun.com/cn-hangzhou/instances/mirrors  docker启动命令1启动dockersystemctlstartdocker2关闭dockersystemc......