首页 > 其他分享 >爬虫实战---爬取图片

爬虫实战---爬取图片

时间:2023-03-02 18:35:33浏览次数:35  
标签:爬取 www encoding url 爬虫 --- headers link response

爬虫实战---爬取图片


import requests
import re
for page in range(1,11):
    if page==1:
        url="http://www.netbian.com/meinv/index.htm"
    else:
        url=f'http://www.netbian.com/meinv/index_{page}.htm'
    headers={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 Core/1.94.178.400 QQBrowser/11.2.5170.400'
    }

    response=requests.get(url,headers=headers)
    response.encoding=response.apparent_encoding
    img_info=re.findall('<a href="(.*?)" title=".*?" target="_blank"><img src=".*?" alt="(.*?)" />',response.text)
	#(.*?)表示我们要的信息,.*?表示要查找的信息
    for link,title in img_info:
        link_url='http://www.netbian.com'+link
        response_1 = requests.get(url=link_url,headers=headers)
        response_1.encoding=response_1.apparent_encoding
        img_url=re.findall('target="_blank"><img src="(.*?)" alt=".*?"',response_1.text)[0]
        print(img_url)
        img_content = requests.get(url=img_url,headers=headers).content
        with open('img\\'+title+'.jpg',mode='wb') as f:
            f.write(img_content)

标签:爬取,www,encoding,url,爬虫,---,headers,link,response
From: https://www.cnblogs.com/xiaopixiong/p/17172928.html

相关文章

  • text/event-stream
    content-type为text/event-streamwebpack热更新需要向浏览器推送信息,一般都会想到websocket,但是还有一种方式,叫做Server-SentEvents(简称SSE)。SSE是websocket的一种轻型......
  • 大型网站构架-安全
     网站应用与防御XSS攻击:站点脚本攻击,指黑客通过篡改网页,注入恶意HTML脚本,在用户浏览网页时,控制用户浏览器进行恶意操作的一种攻击方式;常见的XSS攻击类型主要有2种:反射......
  • Python爬虫:原来微博上的视频下载链接在这啊
    最近看了一下网页版的微博,觉得那上面的视频不错,想获取它上面的下载链接,于是就写了这篇博文。1.几个视频播放平台的下载链接的实现1.西瓜视频西瓜视频这个平台上面......
  • Code Review在TDSQL-C 的应用实践
    1.1为什么重视CodeReview?结合下面这个例子,我们来谈谈为什么要重视codereview。假设你作为新人刚入职,领导分配了一个需求,于是接下来做了下面这些事:为了完成任务疯狂......
  • 转:web自动化-----------报错 Element * is not clickable at point,Other element woul
    出现报错Otherelementwouldreceivetheclick:的原因是;当你selenium中click()点击事件时,所选中的标签被外部div吸收了,因此解决办法就是进入里面进行点击操作。drive......
  • gpgpu-sim 源码学习笔记
    gpgpu-sim源码学习笔记sourcecode1.docuserguidemainpageisca2012tutorialmicro2012-tutorialfunction提供cycles精确的GPGPU仿真模型支持PTX功能模拟......
  • 质量属性-性能
    需要了解的是质量属性的概念,战术,战术应用实例(之前项目是否设计)改善性能,浏览器缓存,页面压缩,减少cookie传输,异步,高并发处理请求,多线程(代码优化),内存管理,SQL优化,具体指标是否......
  • java - Random18
    猜数字案例packagecom.demo.test;importjava.util.Random;importjava.util.Scanner;publicclassrr{publicstaticvoidmain(String[]args){......
  • 代码随想录-day2
    哈希表基础知识哈希表和链表都是属于基础数据结构的一种,都是必须掌握牢靠的知识。哈希表是根据关键码的值而直接进行访问的数据结构。简单来说就是使用数据得到的哈......
  • 2009-08-自己刷简历收到PHP面试邀请
     转眼已经是答辩后的第二个月了,这期间刘文轩又收到过几次面试邀请。但最终都没能收到Offer。从上次陪女朋友去面试发现老师没有安排自己面试后,刘文轩索性自己主动出击,开......