爬虫入门--BS4

时间：2023-03-14 18:14:41浏览次数：42

标签：soup -- 标签爬虫 BeautifulSoup BS4 tagName 选择器 select

下载

pip install bs4
pip install lxml

实例化对象

本地读取数据

from bs4 import BeautifulSoup
fp = open('./test.html', 'r', encoding='utf-8')
soupLocal = BeautifulSoup(fp, 'lxml')

从网络读取数据

import requests
from bs4 import BeautifulSoup
page_text = requests.get('https://www.baidu.com').text
soupNet = BeautifulSoup(fp, 'lxml')

find和findAll

soup.tagName
返回文档中第一次出现的标签(单个)
soup.find('tagName')
返回文档中第一次出现的标签(单个)，等同soup.tagName
soup.find('tagName',属性=)
返回文档中第一次出现的标签(单个)，带属性定位class_/hres/src等
soup.findAll('tagName')
返回符合要求的所有标签(列表)

select

soup.select('.du')
选择器查找，class/id/标签等(列表)
soup.select
相连层级选择器(列表)，'>'连接，表示层间相连
print(soup.select('.tang > ul > li > a')[0])
soup.select
多层层级选择器(列表)，空格连接，表示不管中间相隔几个层级
print(soup.select('.tang > ul a')[0])

标签：soup,--,标签,爬虫,BeautifulSoup,BS4,tagName,选择器,select
From： https://www.cnblogs.com/mangoai/p/17215814.html

20230314-Python-文件的读写
1.文件读取 2.文件写入 ......
Avnet EDI需求分析
Avnet安富利集团（以下简称Avnet）成立于1921年，具有悠久的历史，经过多年的发展，已经成为全球领先的技术解决方案分销商之一。Avnet连接世界领先的技术提供商和超过10万的涵盖广泛......
「双指针&前缀和&回溯法」weight
本题为3月14日23上半学期集训每日一题中B题的题解题面题目描述已知原数列\(a_1,a_2,\cdots,a_n\)中的前1项，前2项，前3项，...，前n项的和，以及后1项，后2项，后3项，...，后n项......
前端奇异问题集锦
1、点击事件不生效@on-click不生效改成@click生效了 2、iview和viewdesign不一样 3、子组件引用不生效import{}from''import form''有无大括号的原......
P1196 [NOI2002] 银河英雄传说
有一个30000*N(i)的列队，2种操作1.Mi,j i行移动到j行的末尾2.Ci,j 询问i行和j行的距离（如果在同一列） #include<bits/stdc++.h>usingnamespacestd;......
B/S WEB项目文件夹上传下载解决方案
HTML部分 <%@ Page Language="C#" AutoEventWireup="true" CodeBehind="index.aspx.cs" Inherits="up6.index" %><!DOCTYPE html PUBLIC "-//W3C//DTDXHTML1......
安卓自动化常用框架
Rhino JS解析器Rhino是用纯Java写成的JavaScript的开放源代码实现。它最常被用于嵌入Java应用程序，以便为终端用户提供脚本的能力。RingoJSjava.awt.Robotjava自......
linux 命令行
linux命令的参数，可以简写 ls-l-hls-lhls-hlcd（更改目录的意思）的用法cd命令（空格）可选参数文件夹几个特殊的目录.当前工作目录..上一级工......
南京凯盛携手图扑共建智慧水泥工厂
前言自2020年以来，图扑软件和南京凯盛国际工程有限公司，合作建设了多个水泥工厂数字孪生项目，其服务客户包括冀东水泥、南方水泥、西南水泥、中联水泥、昆钢嘉华等。孪生工......
Docker学习
阿里云镜像获取地址：https://cr.console.aliyun.com/cn-hangzhou/instances/mirrors docker启动命令1启动dockersystemctlstartdocker2关闭dockersystemc......

爬虫入门--BS4

下载

实例化对象

find和findAll

select

相关文章

赞助商

阅读排行