2023爬虫学习笔记 -- 批量爬取图片

时间：2023-02-13 13:35:06浏览次数：56

标签：http -- jpg 爬取响应地址 2023 requests 图片

一、目标网址

http://img.itlun.cn/uploads/allimg/180703/1-1PF3160531-lp.jpg

二、右击图片获取图片地址

http://img.itlun.cn/uploads/allimg/180703/1-1PF3160531-lp.jpg

2023爬虫学习笔记 -- 批量爬取图片_Powered by 金山文档

三、以二进制形式返回响应数据

响应=requests.get(网页,headers=头)
响应内容=响应.content

四、存储二进制数据

withopen("图片.jpg","wb") as 图片数据:        
图片数据.write(响应内容)

五、获取单张图片的源码

import requests
头={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}
网页="http://img.itlun.cn/uploads/allimg/180703/1-1PF3160531-lp.jpg"
响应=requests.get(网页,headers=头)
响应内容=响应.content
with open("图片.jpg","wb") as 图片数据:        
图片数据.write(响应内容)

六、通过urllib库获取图片

1、导入库文件

import urllib

2、指定要保存的图片地址

图片地址="http://img.itlun.cn/uploads/allimg/180703/1-1PF3160531-lp.jpg"

3、通过命令获取该图片

urllib.request.urlretrieve(图片地址,"456.jpg")

七、批量获取图片

1、通过网页源码，批量获取图片地址

import requests
目标地址="http://md.itlun.cn/a/new/"头={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}
响应=requests.get(url=目标地址,headers=头)
响应内容=响应.textprint(响应内容)

2、响应内容有乱码，charset是gbk，所以我们指定一下代码

2023爬虫学习笔记 -- 批量爬取图片_数据_02

3、指定编码格式

响应.encoding="gbk"

4、分析源码，找到了图片的所有地址

2023爬虫学习笔记 -- 批量爬取图片_数据_03

5、通过正则表达式获取图片地址

正则='target="_blank"><IMG border="0" src="(.*?)"'
print(re.findall(正则,响应内容))

6、返回的数据是一个列表，将列表里面的值重新组和，并保存

正则='target="_blank"><IMG border="0" src="(.*?)"'
列表内容=re.findall(正则,响应内容)for i in 列表内容:
    i="http:"+i
    图片名字=i.split("/")[-1]
    urllib.request.urlretrieve(i,图片名字)

标签：http,--,jpg,爬取,响应,地址,2023,requests,图片
From： https://blog.51cto.com/u_15288375/6053975

bootstrap-suggest插件处理复杂对象时的解决方案
文章目录一、问题描述：二、解决办法：后端代码:jsp页面：js代码渲染：实现效果：三、插件下载地址：一、问题描述：在用bootst......
printThis前端打印插件
文章目录一、前言:1、特征2、插件下载地址：二、用法：1、所有配置:三、示例代码：1、jsp代码：2、js部分：3......
全国重点城市春节商圈客流数据来了，最火爆商圈果然是它 | 数说热点
作为疫情防控政策进一步放开后的首个春节，在“返乡潮”、“出游潮”和各地促销费政策的刺激下，火热强劲且亮点纷呈的线下消费市场随烟火气再次回归。那么2023年春节，线下消......
（数据库系统概论|王珊）第二章关系数据库-第二节、第三节：关系操作和关系完整性
pdf下载：密码7281专栏目录首页：【专栏必读】（考研复试）数据库系统概论第五版（王珊）专栏学习笔记目录导航及课后习题答案详解一：关系操作（1）基本的关系操作关系模型常......
python中的模块调用案例
此案例是本人在B站上学习“黑马程序员”up主的课，课程中一个案例特别好，在此记录一下。在创建包的时候，会产生一个__init__.py文件，如果没有这个文件，那么就是生成的普通文件夹。......
python自动化办公--pyautogui控制鼠标和键盘操作
✅作者简介：热爱科研的算法开发者，Python、Matlab项目可交流、沟通、学习。 ......
python基础之字符串处理
✅作者简介：热爱科研的算法开发者，Python、Matlab项目可交流、沟通、学习。 ......
sudo执行脚本不重置环境变量
问题$exporthello=world$env|grepworldhello=world$sudoenv|grepworld$原因这是因为sudo会重置当前环境变量。解决1：在/etc/sudoers可以配置执行sudo时，哪......
华大电子MCU-CIU32L061x8简介及特点
华大电子MCU-CIU32L061x8产品特性l48MHzCortex®-M0+32-bitCPUl128KBUserflash，具有代码读出保护区l14KBSystemmemory，内嵌安全算法APIl512ByteOTPl16KB......
[轻量级RTSP服务]Linux|麒麟操作系统下实现屏幕|摄像头|声音采集
背景随着国产操作系统的推进，传统行业对Linux平台的呼声和需求越来越大，之前几年，我们发布了Linux平台运营商级的RTSP转RTMP推送模块、RTMP推送模块和RTSP、RTMP播放模块，前段时......

2023爬虫学习笔记 -- 批量爬取图片

相关文章

赞助商

阅读排行