爬虫简易说明

爬虫简易说明

时间：2024-08-06 21:49:21浏览次数：18

标签：span soup class BeautifulSoup 爬虫说明简易 find

想必大家都了解爬虫，也就是爬取网页你所需要的信息

相比于网页繁多的爬虫教程，本篇主要将爬虫分为三个部分，以便你清楚，代码的功能以及使用，这三部分分别为

1.获取到源代码

2.根据网页中的标签特征，获取源代码你所需要的部分

3.想一下如何根据页面的逻辑将一系列的网页自动化抓取

接下来说一下每一步的操作

1.获取源代码

现在有很多库来获取，不过现在普遍使用的是requests，我也是用它
导入方式为
import requests
这一部分很简单就一行代码
response = requests.get(url, params = params , headers = headers)
url就是页面的url，网址
params就是查询参数，可选
headers就是页面的请求头，也是可选，不过现在可以必过简易的反爬，主要要有user_agent和cookies

2.根据网页特征获取

这里我用到了BeautifulSoup
导入方式为
from bs4 import BeautifulSoup
具体使用就是
soup = BeautifulSoup(directory, 'html.parser')
其中'html.parser'，它是 Python 内置的解析器，用于解析普通的 HTML 文档。

作用为：首先将html 变量中的 HTML 内容解析为一个 BeautifulSoup 对象 soup，使得后续可以利用 BeautifulSoup 提供的方法来方便地遍历和操作 HTML 文档的各个部分。

至于筛选标签，我主要我是使用了BeautifulSoup中的find和find_all两个函数，是用于查找符合指定标签名和属性条件的元素，这两个函数是有一定的区别的。
find用于查找文档中符合指定条件的第一个元素
find_all用于查找文档中符合条件的所有元素，并返回一个列表
举个例子
first_span = soup.find('span', class_='fl')
这里用find方法查找了第一个标签，且其 class 属性为 'fl'。
span_list = soup.find_all('span', class_='fl')
这里用find_all 方法查找了所有标签，且其 class 属性为 'fl' 的元素，将它们存储在 span_list 列表中。

3.自动化抓取
如一些页面的选择上
https://www.xxx.html?p=s

这就是爬虫简易思路，希望对你们有帮助

标签：span,soup,class,BeautifulSoup,爬虫,说明,简易,find
From： https://www.cnblogs.com/l-xx123/p/18345876

jsoncpp库的简易引入教程
1.打开github上项目的主页jsoncpp2.clone到本地gitclonehttps://github.com/open-source-parsers/jsoncpp.git3.生成jsoncpp库的头文件以及源文件进入项目目录![[Pastedimage20240510150641.png]]执行Python命令，pythonamalgamate.py![[Pastedimage20240510150......
爬虫系统稳定性的监控方案
在爬虫系统的开发和运营过程中，保持其稳定性至关重要。随着数据量和任务复杂度的增加，爬虫系统面临着各种挑战，如网络波动、目标网站结构变化、数据存储压力等。因此，建立一个全面的监控体系，及时发现和处理问题，是保证爬虫系统稳定运行的关键。本文将分析和总结如何通过多种监控手段......
数字量输入模块：远程组态说明
本章主要介绍XD系列远程IO的耦合器配合IO模块与目前工业主流PLC配置。该文举例介绍一种数字量模块的组态（其它数字量模块同理）1、通信连接图，如图4-1所示。图4-1通信连接图2、硬件配置如表4-1所示3、安装XML描述文件安装XML描述文件到TwinCAT3中，如图4-2所示。示例默认文件夹......
Profinet远程IO模块：模拟量输入输出模块_参数及选型说明
模拟量输入、输出模块是XD系列现场常用的IO模块。分为输入和输出两种类型，按照信号类型分为电压型和电流型，16位分辨率，通道分为4通道和8通道！产品型号信息模块指示灯模拟量量程对应数值（以下为4通道型号，8通道同理）XD3004的使用注：默认配置1:0-10V。(1).配置参数1：0-10v，输入1......
爬虫“拥抱大模型”，有没有搞头？
前言大模型是当前最热门的研究方向之一，千行百业加速“拥抱大模型”。如今，越来越多的研究机构和企业选择开放大模型的源代码和训练数据，促进了学术界和工业界的合作与交流，推动了技术进步，相关生态越来越好。这也使得，无论体量大小，各公司都有参与的机会，越来越多的大模型开始支持多模......
Redux 及Redux-Toolkit 使用笔记及简易实现
Redux及Redux-Toolkit使用笔记及简易实现依赖的包npminstall@reduxjs/toolkitreact-redux创建Store并且将它注入到app中。一般使用configureStore({reducers:{}}),这种方式，我们可以在各个模块里面定义各自的reducer,然后在store里面使用它。这个方法返回的就是store的实......
【推荐100个unity插件之24】Post Processing 后处理插件最全基础使用说明
文章目录前言什么是后处理？场景视图显示后处理效果主相机勾选渲染后处理Post-processVolume和Volume的区别内置渲染管线的后处理Post-processVolume使用通用渲染管线(URP)的后处理是Volume的使用文档升级URPglobalvolume全局后处理效果泛光(Bloom)色差(Chromatic......
手把手教你使用Python网络爬虫下载一本小说（附源码）
大家好，我是Python进阶者。前言前几天【磐奚鸟】大佬在群里分享了一个抓取小说的代码，感觉还是蛮不错的，这里分享给大家学习。一、小说下载如果你想下载该网站上的任意一本小说的话，直接点击链接进去，如下图所示。只要将URL中的这个数字拿到就可以了，比方说这里是951，那么这个数字......
字符串系列目录&&说明
字符串准备写成一个系列。目录\(\text{KMP笔记}\)\(\text{Manacher笔记}\)[][][]格式与说明下面的说明和格式将被应用于整个系列。说明所有字符串的下标从\(1\)开始。所有的实际字符串使用\texttt字体。如\(s=\texttt{abac}\)。所有算法名和公......
基于Java中的SSM框架实现在线音乐网站系统项目【项目源码+论文说明】
基于Java中的SSM框架实现在线音乐网站系统演示摘要本文讲述了使用JSP语言及HTML5语言及MySql数据库技术开发的音乐网站的设计与实现。本文所讲的JSP音乐系统是通过所学的知识创办一个类似于QQ音乐或者酷狗音乐性质的网站平台，使所有对国内外音乐欣赏感兴趣的人都可以不必再......

相关文章

赞助商

阅读排行