首页 > 其他分享 >爬虫简易说明

爬虫简易说明

时间:2024-08-06 21:49:21浏览次数:9  
标签:span soup class BeautifulSoup 爬虫 说明 简易 find

想必大家都了解爬虫,也就是爬取网页你所需要的信息

相比于网页繁多的爬虫教程,本篇主要将爬虫分为三个部分,以便你清楚,代码的功能以及使用,这三部分分别为

1.获取到源代码

2.根据网页中的标签特征,获取源代码你所需要的部分

3.想一下如何根据页面的逻辑将一系列的网页自动化抓取

接下来说一下每一步的操作

1.获取源代码

现在有很多库来获取,不过现在普遍使用的是requests,我也是用它
导入方式为
import requests
这一部分很简单就一行代码
response = requests.get(url, params = params , headers = headers)
url就是页面的url,网址
params就是查询参数,可选
headers就是页面的请求头,也是可选,不过现在可以必过简易的反爬,主要要有user_agent和cookies

2.根据网页特征获取

这里我用到了BeautifulSoup
导入方式为
from bs4 import BeautifulSoup
具体使用就是
soup = BeautifulSoup(directory, 'html.parser')
其中'html.parser',它是 Python 内置的解析器,用于解析普通的 HTML 文档。

作用为:首先将html 变量中的 HTML 内容解析为一个 BeautifulSoup 对象 soup,使得后续可以利用 BeautifulSoup 提供的方法来方便地遍历和操作 HTML 文档的各个部分。

至于筛选标签,我主要我是使用了BeautifulSoup中的find和find_all两个函数,是用于查找符合指定标签名和属性条件的元素,这两个函数是有一定的区别的。
find用于查找文档中符合指定条件的第一个元素
find_all用于查找文档中符合条件的所有元素,并返回一个列表
举个例子
first_span = soup.find('span', class_='fl')
这里用find方法查找了第一个 标签,且其 class 属性为 'fl'。
span_list = soup.find_all('span', class_='fl')
这里用find_all 方法查找了所有 标签,且其 class 属性为 'fl' 的元素,将它们存储在 span_list 列表中。

3.自动化抓取
如一些页面的选择上
https://www.xxx.html?p=s

这就是爬虫简易思路,希望对你们有帮助

标签:span,soup,class,BeautifulSoup,爬虫,说明,简易,find
From: https://www.cnblogs.com/l-xx123/p/18345876

相关文章

  • jsoncpp库的简易引入教程
    1.打开github上项目的主页jsoncpp2.clone到本地gitclonehttps://github.com/open-source-parsers/jsoncpp.git3.生成jsoncpp库的头文件以及源文件进入项目目录![[Pastedimage20240510150641.png]]执行Python命令,pythonamalgamate.py![[Pastedimage20240510150......
  • 爬虫系统稳定性的监控方案
    在爬虫系统的开发和运营过程中,保持其稳定性至关重要。随着数据量和任务复杂度的增加,爬虫系统面临着各种挑战,如网络波动、目标网站结构变化、数据存储压力等。因此,建立一个全面的监控体系,及时发现和处理问题,是保证爬虫系统稳定运行的关键。本文将分析和总结如何通过多种监控手段......
  • 数字量输入模块:远程组态说明
    本章主要介绍XD系列远程IO的耦合器配合IO模块与目前工业主流PLC配置。该文举例介绍一种数字量模块的组态(其它数字量模块同理)1、通信连接图,如图4-1所示。图4-1通信连接图2、硬件配置如表4-1所示3、安装XML描述文件安装XML描述文件到TwinCAT3中,如图4-2所示。示例默认文件夹......
  • Profinet远程IO模块:模拟量输入输出模块_参数及选型说明
    模拟量输入、输出模块是XD系列现场常用的IO模块。分为输入和输出两种类型,按照信号类型分为电压型和电流型,16位分辨率,通道分为4通道和8通道!产品型号信息模块指示灯模拟量量程对应数值(以下为4通道型号,8通道同理)XD3004的使用注:默认配置1:0-10V。(1).配置参数1:0-10v,输入1......
  • 爬虫“拥抱大模型”,有没有搞头?
    前言大模型是当前最热门的研究方向之一,千行百业加速“拥抱大模型”。如今,越来越多的研究机构和企业选择开放大模型的源代码和训练数据,促进了学术界和工业界的合作与交流,推动了技术进步,相关生态越来越好。这也使得,无论体量大小,各公司都有参与的机会,越来越多的大模型开始支持多模......
  • Redux 及Redux-Toolkit 使用笔记及简易实现
    Redux及Redux-Toolkit使用笔记及简易实现依赖的包npminstall@reduxjs/toolkitreact-redux创建Store并且将它注入到app中。一般使用configureStore({reducers:{}}),这种方式,我们可以在各个模块里面定义各自的reducer,然后在store里面使用它。这个方法返回的就是store的实......
  • 【推荐100个unity插件之24】Post Processing 后处理插件最全基础使用说明
    文章目录前言什么是后处理?场景视图显示后处理效果主相机勾选渲染后处理Post-processVolume和Volume的区别内置渲染管线的后处理Post-processVolume使用通用渲染管线(URP)的后处理是Volume的使用文档升级URPglobalvolume全局后处理效果泛光(Bloom)色差(Chromatic......
  • 手把手教你使用Python网络爬虫下载一本小说(附源码)
    大家好,我是Python进阶者。前言前几天【磐奚鸟】大佬在群里分享了一个抓取小说的代码,感觉还是蛮不错的,这里分享给大家学习。一、小说下载如果你想下载该网站上的任意一本小说的话,直接点击链接进去,如下图所示。只要将URL中的这个数字拿到就可以了,比方说这里是951,那么这个数字......
  • 字符串系列目录&&说明
    字符串准备写成一个系列。目录\(\text{KMP笔记}\)\(\text{Manacher笔记}\)[][][]格式与说明下面的说明和格式将被应用于整个系列。说明所有字符串的下标从\(1\)开始。所有的实际字符串使用\texttt字体。如\(s=\texttt{abac}\)。所有算法名和公......
  • 基于Java中的SSM框架实现在线音乐网站系统项目【项目源码+论文说明】
    基于Java中的SSM框架实现在线音乐网站系统演示摘要本文讲述了使用JSP语言及HTML5语言及MySql数据库技术开发的音乐网站的设计与实现。本文所讲的JSP音乐系统是通过所学的知识创办一个类似于QQ音乐或者酷狗音乐性质的网站平台,使所有对国内外音乐欣赏感兴趣的人都可以不必再......