首页 > 其他分享 >爬虫案例1-爬取图片的三种方式之一:DrissionPage篇(3)

爬虫案例1-爬取图片的三种方式之一:DrissionPage篇(3)

时间:2024-08-22 22:04:19浏览次数:9  
标签:src DrissionPage img 爬虫 li 爬取 css

@

目录

前言

requests篇selenium篇,本文是爬取图片的最后一个案例,利用了python第三方库DrissionPage来自动化爬取图片。当然,爬取图片肯定不止这三种方法,还有基于python的scrapy框架,基于node.js的express框架以及基于Java的webmagic框架等等。

DrissionPage介绍

DrissionPage和selenium相似,都是基于python的网页自动化工具。不过Drission库的结合了requests和Selenium的优势,既能控制浏览器交互,又能高效地收发数据包。它的主要特点是可以监听网络数据,它可以拦截并解析请求和响应数据包,方便用户进行调试和分析。

实战

话不多说,直接上源码

from DrissionPage import ChromiumPage  # chromium内核浏览器
from time import sleep # 时间模块
from DrissionPage import SessionPage  # 和requests库相似,用于html解析

browser = ChromiumPage()    # 打开浏览器
browser.get('https://pic.netbian.com/e/search/result/?searchid=147')  # 请求网址
img_list=browser.eles('css:.slist ul li')     # 定位所有照片元素
for li in img_list:
    try:
        img_src=li.ele("css:a img").attr('src')  # 获取图片的地址
        # img_src=li.ele("css:a img").link  # 获取图片的地址
        img_name=li.ele('css:a b').text  # 获取照片名字
        img_name=img_src.split('/')[-1]  # 以/为分割符分隔,取列表最后一个元素(照片命名)
        save_path=r'./image1'     # 照片保存地址
        page = SessionPage()
        res=page.download(img_src,save_path)    # 图片下载
        print(res,img_name,img_src)
    except Exception as e:
        print(e)

多页爬取只需要再加个点击事件和for循环即可,可以私信d我获取多页爬取的源码

共勉

  • 先完成 后完美

博客

  • 本人是一个渗透爱好者,不时会在微信公众号(laity的渗透测试之路)更新一些实战渗透的实战案例,感兴趣的同学可以关注一下,大家一起进步。
    • 之前在公众号发布了一个kali破解WiFi的文章,感兴趣的同学可以去看一下,在b站(up主:laity1717)也发布了相应的教学视频

标签:src,DrissionPage,img,爬虫,li,爬取,css
From: https://www.cnblogs.com/laity17/p/18374854

相关文章

  • 网易新闻爬虫实战
    目录1.导入所需库2.定义请求头3.获取所有板块的链接4.获取新闻标题和详情链接5.获取新闻详情页内容6.多进程加速爬取7.保存数据到CSV文件分享一个关于如何使用Python编写网易新闻爬虫的项目。在这个项目中,我们将使用requests库来获取网页源代码,使用lxml库来解......
  • 爬虫: AmazonSpider-亚马逊用户画像
    爬虫:AmazonSpider-亚马逊用户画像使用selenium等工具类,在亚马逊平台上爬去商品信息和用户信息,并进行数据分析和分词统计,最后生成用户画像报告。亚马逊平台访问需要代理访问!github仓库:https://github.com/kimbleex/AmazonSpider.gitstar和fork是一个好习惯!......
  • requests爬虫学习
    #爬虫的过程,就是模仿浏览器的行为,往目标站点发送请求,接收服务器的响应数据,提取需要的信息,并进行保存的过程。#上网的全过程:#  普通用户:#    打开浏览器-->往目标站点发送请求-->接收响应数据-->渲染到页面上。#  爬虫程序:#    模......
  • 豆瓣评分9.0!Python3网络爬虫开发实战,堪称教学典范!
    今天我们所处的时代是信息化时代,是数据驱动的人工智能时代。在人工智能、物联网时代,万物互联和物理世界的全面数字化使得人工智能可以基于这些数据产生优质的决策,从而对人类的生产生活产生巨大价值。在这个以数据驱动为特征的时代,数据是最基础的。数据既可以通过研发产品获得,......
  • Python爬虫进阶技巧
    在掌握了基本的网页数据提取与解析技能后,我们将进一步探讨Python爬虫的进阶技巧,以应对更加复杂的网络环境和数据抓取需求。动态网页爬取动态网页是指那些通过JavaScript动态生成内容的网页。这类网页的内容在初次加载时并不包含在HTML源代码中,因此无法直接使用传统的爬虫方法......
  • 计算机毕业设计Python深度学习游戏推荐系统 Django PySpark游戏可视化 游戏数据分析
    基于Spark的TapTap游戏数据分析系统技术栈:  -python  -django  -scrapy  -vue3  -spark  -element-plus  -echarts   功能板块:0.爬虫模块:  通过scrapy抓取taptap游戏网站数据,从分类页开始抓取全站游戏的数据1.首页......
  • 实战教程:Python实现高校爬虫,运用协同过滤与k-means算法进行专业评分分析
    ......
  • 数据炼金术:用Python爬虫精炼信息
    标题:数据炼金术:用Python爬虫精炼信息在数据泛滥的互联网时代,Python爬虫不仅是搜集信息的利器,更是清洗和格式化数据的炼金术。本文将带你走进数据清洗和格式化的世界,展示如何使用Python爬虫从海量网络信息中提取、清洗并重塑数据,最终转化为有价值的信息资产。一、数据清洗......
  • 高校爬虫可视化系统-基于python|Django|flask的高校爬虫可视化系统|大学数据抓取与展
    博主介绍:✌十余年IT大项目实战经验、在某机构培训学员上千名、专注于本行业领域✌技术范围:Java实战项目、Python实战项目、微信小程序/安卓实战项目、爬虫+大数据实战项目、Nodejs实战项目、PHP实战项目、.NET实战项目、Golang实战项目。主要内容:系统功能设计、开题报告......
  • 爬取豆瓣TOP250电影详解
    一.分析网页DOM树结构1.分析网页结构及简单爬取豆瓣(Douban)是一个社区网站,创立于2005年3月6日。该网站以书影音起家,提供关于书籍、电影、音乐等作品的信息,其作品描述和评论都是由用户提供(User-GeneratedContent,简称UGC),是Web2.0网站中具有特色的一个网站。该网站提供了书影音......