首页 > 编程语言 >【Python】一个实用的爬虫代码示例

【Python】一个实用的爬虫代码示例

时间:2024-03-15 11:29:20浏览次数:29  
标签:示例 Python 爬虫 爬取 URL import 图片链接 页面 图片

目录

需要爬取某个网站的前10个页面的图片,图片包括风景类或者人物类

思路

使用Python爬取某个网站的前10个页面的图片,并且只获取风景或人物类图片,可以按照以下步骤实现:

  1. 发送HTTP请求:使用requests库向目标网站发送GET请求,获取页面的HTML内容。

  2. 解析HTML内容:使用BeautifulSoup库解析HTML内容,找到图片链接。这通常涉及到查找包含图片URL的<img>标签。

  3. 过滤图片链接:根据图片链接的某些特征(如URL中包含的关键词)来过滤出风景或人物类图片。

  4. 下载图片:对于过滤后的图片链接,使用requests库再次发送GET请求获取图片内容,并保存到本地文件。

  5. 处理分页:如果需要爬取多个页面,通常可以通过修改URL中的分页参数或寻找页面中的“下一页”链接来实现。

  6. 异常处理:在爬取过程中,可能会遇到各种异常,如网络错误、反爬机制等,需要添加异常处理逻辑来确保程序的稳定性。

  7. 遵守规定:始终确保你的爬虫行为符合目标网站的robots.txt文件规定以及相关法律法规。

代码实现

下面是一个简化的代码示例,展示了如何实现上述思路:

import requests
from bs4 import BeautifulSoup
import os
import re

# 目标网站的URL基础部分和分页参数
base_url = 'http://example.com/page/'
page_range = range(1, 11)  # 爬取前10个页面
headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537'
}

# 图片分类关键字和保存图片的目录
imag

标签:示例,Python,爬虫,爬取,URL,import,图片链接,页面,图片
From: https://blog.csdn.net/weixin_48134870/article/details/136734210

相关文章

  • 【Python】拉格朗日Lagrange插值与牛顿Newton插值求解
    实验原理熟悉并掌握Lagrange插值的构造原理;会计算在给定点的函数值Lagrange插值是一种基于Lagrange基函数的插值方法。给定一组数据节点(x,y),其中x是自变量,y是因变量,其插值的目标是构造一个多项式函数,通过这个多项式函数来拟合已知的数据节点,并用于对其他未知点进行插值预......
  • Python爬虫入门
    什么是爬虫爬虫就是程序,一个能获取互联网上的资源(文字、图片、音视频)数据的程序。不用爬⾍,打开浏览器,输⼊百度的⽹址,就能在浏览器上看到百度的内容了。那换成爬⾍呢?道理是⼀样的。只不过,是⽤代码来模拟⼀个浏览器,然后同样的输⼊百度的⽹址。那么程序也能拿到百度的......
  • 使用Python开发桌面应用程序
    前言在本教程中,我们将使用Python编写一个功能强大的桌面应用程序,用于数据清洗、压缩、合并excel文件。该程序基于PySide6库和其他辅助库进行开发,提供了直观的用户界面和易于使用的功能。下面我们将对代码进行分块介绍。(底部附项目完整代码)导入所需库和模块在程序的开头,我们......
  • python+django在线网络小说分享系统flask毕业设计
    小说网站完善了对应的软体架设以及程序编码的工作,采取Mysql作为后台数据的主要存储单元,采用vue框架等技术进行业务系统的编码及其开发,实现了本系统的全部功能。同时完成小说网站的基本功能:小说的分类、信息查询浏览时间排行;用户的注册登录、创作小说、对阅读书架的管理;后台对用......
  • python+playwright 以非無痕模式打开chrome浏览器
    在使用python+playwright想从网页下载Excel数据,因为需要经过SSO,携带Tokey才可以访问数据,所以无痕模式下搞不好,使用非无痕模式打开浏览器,就可以获取cookie,成功达到效果。点击查看代码frommultiprocessing.sharedctypesimportValuefromplaywright.sync_apiimportsync_pla......
  • 5分钟上手Python爬虫:从干饭开始,轻松掌握技巧
    很多人都听说过爬虫,我也不例外。曾看到别人编写的爬虫代码,虽然没有深入研究,但感觉非常强大。因此,今天我决定从零开始,花费仅5分钟学习入门爬虫技术,以后只需轻轻一爬就能查看所有感兴趣的网站内容。广告?不存在的,因为我看不见。爬虫只会获取我感兴趣的信息,不需要的内容对我而言只是一......
  • 掌握Python库的Bokeh,就能让你的交互炫目可视化
    本文分享自华为云社区《Bokeh图形魔法:掌握绘图基础与高级技巧,定制炫目可视化》,作者:柠檬味拥抱。Bokeh是一个用于创建交互式可视化图形的强大Python库。它不仅易于使用,而且功能强大,适用于各种数据可视化需求。本文将介绍Bokeh库的绘图可视化基础入门,重点说明常用的参数,并通过实例......
  • python的字符串方法举例
    Python中的字符串对象提供了许多内置的方法,用于操作和处理字符串。以下是一些常用的字符串方法及其示例:1.split()将字符串分割为子字符串列表,并返回该列表。s="HelloWorld"words=s.split()#默认按空格分割print(words)#输出:['Hello','World']#也可以指定分......
  • Python爬虫实战系列3:今日BBNews编程新闻采集
    一、分析页面打开今日BBNews网址https://news.bicido.com,下拉选择【编程】栏目1.1、分析请求F12打开开发者模式,然后点击Network后点击任意一个请求,Ctrl+F开启搜索,输入标题ApacheDoris2.1.0版本发布,开始搜索搜索结果显示直接返回的json格式,那就soeasy了,直接copycurl,......
  • python的代码发布到服务器上需要注意的事项
    1、服务器的python运行环境配置。从官网上 https://www.python.org/ 下载服务器操作系统对应的版本。 然后配置 python和pip命令运行的环境变量,这是windows下的 检查是否正常:  2、开发时引用的第三方库要在服务器上安装。   a.首先获取需要的第三方库......