【Python】一个实用的爬虫代码示例

时间：2024-03-15 11:29:20浏览次数：34

标签：示例 Python 爬虫爬取 URL import 图片链接页面图片

思路

使用Python爬取某个网站的前10个页面的图片，并且只获取风景或人物类图片，可以按照以下步骤实现：

发送HTTP请求：使用requests库向目标网站发送GET请求，获取页面的HTML内容。
解析HTML内容：使用BeautifulSoup库解析HTML内容，找到图片链接。这通常涉及到查找包含图片URL的<img>标签。
过滤图片链接：根据图片链接的某些特征（如URL中包含的关键词）来过滤出风景或人物类图片。
下载图片：对于过滤后的图片链接，使用requests库再次发送GET请求获取图片内容，并保存到本地文件。
处理分页：如果需要爬取多个页面，通常可以通过修改URL中的分页参数或寻找页面中的“下一页”链接来实现。
异常处理：在爬取过程中，可能会遇到各种异常，如网络错误、反爬机制等，需要添加异常处理逻辑来确保程序的稳定性。
遵守规定：始终确保你的爬虫行为符合目标网站的robots.txt文件规定以及相关法律法规。

代码实现

下面是一个简化的代码示例，展示了如何实现上述思路：

import requests
from bs4 import BeautifulSoup
import os
import re

# 目标网站的URL基础部分和分页参数
base_url = 'http://example.com/page/'
page_range = range(1, 11)  # 爬取前10个页面
headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537'
}

# 图片分类关键字和保存图片的目录
imag

标签：示例,Python,爬虫,爬取,URL,import,图片链接,页面,图片
From： https://blog.csdn.net/weixin_48134870/article/details/136734210

【Python】拉格朗日Lagrange插值与牛顿Newton插值求解
实验原理熟悉并掌握Lagrange插值的构造原理；会计算在给定点的函数值Lagrange插值是一种基于Lagrange基函数的插值方法。给定一组数据节点（x,y），其中x是自变量，y是因变量，其插值的目标是构造一个多项式函数，通过这个多项式函数来拟合已知的数据节点，并用于对其他未知点进行插值预......
Python爬虫入门
什么是爬虫爬虫就是程序，一个能获取互联网上的资源(文字、图片、音视频)数据的程序。不用爬⾍，打开浏览器，输⼊百度的⽹址，就能在浏览器上看到百度的内容了。那换成爬⾍呢？道理是⼀样的。只不过，是⽤代码来模拟⼀个浏览器，然后同样的输⼊百度的⽹址。那么程序也能拿到百度的......
使用Python开发桌面应用程序
前言在本教程中，我们将使用Python编写一个功能强大的桌面应用程序，用于数据清洗、压缩、合并excel文件。该程序基于PySide6库和其他辅助库进行开发，提供了直观的用户界面和易于使用的功能。下面我们将对代码进行分块介绍。（底部附项目完整代码）导入所需库和模块在程序的开头，我们......
python+django在线网络小说分享系统flask毕业设计
小说网站完善了对应的软体架设以及程序编码的工作，采取Mysql作为后台数据的主要存储单元，采用vue框架等技术进行业务系统的编码及其开发，实现了本系统的全部功能。同时完成小说网站的基本功能：小说的分类、信息查询浏览时间排行；用户的注册登录、创作小说、对阅读书架的管理；后台对用......
python+playwright 以非無痕模式打开chrome浏览器
在使用python+playwright想从网页下载Excel数据，因为需要经过SSO，携带Tokey才可以访问数据，所以无痕模式下搞不好，使用非无痕模式打开浏览器，就可以获取cookie，成功达到效果。点击查看代码frommultiprocessing.sharedctypesimportValuefromplaywright.sync_apiimportsync_pla......
5分钟上手Python爬虫：从干饭开始，轻松掌握技巧
很多人都听说过爬虫，我也不例外。曾看到别人编写的爬虫代码，虽然没有深入研究，但感觉非常强大。因此，今天我决定从零开始，花费仅5分钟学习入门爬虫技术，以后只需轻轻一爬就能查看所有感兴趣的网站内容。广告？不存在的，因为我看不见。爬虫只会获取我感兴趣的信息，不需要的内容对我而言只是一......
掌握Python库的Bokeh，就能让你的交互炫目可视化
本文分享自华为云社区《Bokeh图形魔法：掌握绘图基础与高级技巧，定制炫目可视化》，作者：柠檬味拥抱。Bokeh是一个用于创建交互式可视化图形的强大Python库。它不仅易于使用，而且功能强大，适用于各种数据可视化需求。本文将介绍Bokeh库的绘图可视化基础入门，重点说明常用的参数，并通过实例......
python的字符串方法举例
Python中的字符串对象提供了许多内置的方法，用于操作和处理字符串。以下是一些常用的字符串方法及其示例：1.split()将字符串分割为子字符串列表，并返回该列表。s="HelloWorld"words=s.split()#默认按空格分割print(words)#输出:['Hello','World']#也可以指定分......
Python爬虫实战系列3：今日BBNews编程新闻采集
一、分析页面打开今日BBNews网址https://news.bicido.com，下拉选择【编程】栏目1.1、分析请求F12打开开发者模式，然后点击Network后点击任意一个请求，Ctrl+F开启搜索，输入标题ApacheDoris2.1.0版本发布，开始搜索搜索结果显示直接返回的json格式，那就soeasy了，直接copycurl，......
python的代码发布到服务器上需要注意的事项
1、服务器的python运行环境配置。从官网上 https://www.python.org/ 下载服务器操作系统对应的版本。然后配置 python和pip命令运行的环境变量，这是windows下的检查是否正常： 2、开发时引用的第三方库要在服务器上安装。 a.首先获取需要的第三方库......

【Python】一个实用的爬虫代码示例

目录

思路

代码实现

相关文章

赞助商

阅读排行