首页 > 其他分享 >爬虫_初步(爬取豆瓣图片)

爬虫_初步(爬取豆瓣图片)

时间:2023-12-21 21:46:50浏览次数:27  
标签:headers request 爬虫 urllib 爬取 re 豆瓣 imgurl imginfo

引用python库

from urllib.request import urlopen
import urllib.request,urllib.error
import re

  

 找到本机的headers

 

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0'}
url = 'https://movie.douban.com/top250' request = urllib.request.Request(url, headers=headers)#发送请求 response = urllib.request.urlopen(request) get_1 = response.read().decode('utf-8') get_1 imginfo = re.findall(r'<img width="100" alt="(.*?)" src="(.*?)" class="">',get_1) imginfo for i in range(0,20): imgurl = imginfo[i] imginfo[0] imgreq = urlopen(imgurl[1]) imgc = imgreq.read() imgf = open(r'D:\\A-lesson work\\CCUT\\img2\\'+ imgurl[0]+'.jpg','wb') imgf.write(imgc) imgf.close()

 比较重要的正则提取关键字 Python---re.findall的用法_python中re.findall用法-CSDN博客

 

标签:headers,request,爬虫,urllib,爬取,re,豆瓣,imgurl,imginfo
From: https://www.cnblogs.com/gy-10/p/17920169.html

相关文章

  • Python编写接口测试文档(以豆瓣搜索为例)
    前言很多人会使用postman工具,或者熟悉python,但不一定会使用python来编写测试用例脚本,postman里面可以完整的将python代码复制出来。(以下所有内容以豆瓣网站搜索功能为例子)一、postman接口用例转换为python测试用例打开postman,点击右侧的</>图标,页面右边会显示脚本,顶部修改导出的语......
  • 爬虫新问题
    Traceback(mostrecentcalllast):File"D:\software\python\python310\lib\site-packages\urllib3\connectionpool.py",line790,inurlopenresponse=self._make_request(File"D:\software\python\python310\lib\site-packages\u......
  • 爬虫-今日头条我的收藏-增量式导入到mongodb(三)
    背景:续接前文,当我们有了原始数据之后,自然会想如何利用这些数据。这些文件数据都是json格式,打开一个文本文件眼睛都要看花。所以想把这些数据导入到对应的数据库中,市面上几乎所有数据库都支持json格式存储。随着时间的推移,用户不断有新的收藏,这样就不断产生新的收藏文件。需要不......
  • Python爬虫框架推荐及其特点
    在网络爬虫开发中,选择适合的爬虫框架可以大大提高开发效率和爬取数据的质量。Python作为一种广泛应用于爬虫开发的编程语言,有许多优秀的爬虫框架可供选择。本文将介绍几个好用的Python爬虫框架,并列举它们的特点,帮助您选择适合自己的框架。1.Scrapy:Scrapy是一个强大的开源爬虫框架,被......
  • 《Python网络爬虫:从入门到实战》
    ......
  • Python的Requests库与网页爬取
    requests库的几种方法 其他几个方法内部实际都调用了requests.request()方法 Response对象的属性 首先要使用r.status_code判断连接是否成功。 Request库的异常  爬取网页的通用代码  需要处理异常,使爬取网页变得更有效、可靠、稳定。  HTTP  无......
  • 使用XPath进行网页爬取的Python实现
    XPath是一种用于在XML和HTML文档中进行导航和查询的语言。在网页爬取中,XPath可以帮助我们定位和提取特定的网页元素,从而实现数据的抓取和提取。本文将介绍如何使用Python中的XPath库来进行网页爬取。1.安装依赖库:在使用XPath进行网页爬取之前,我们需要安装相关的依赖库。Python中常......
  • 提高Go爬虫效率的方法
     Go语言是一种高效、并发性能出色的编程语言,非常适合用于开发爬虫程序。然而,为了提高Go爬虫的效率,我们需要注意一些优化方法。本文将介绍一些提高Go爬虫效率的方法,帮助您优化和加速爬虫程序的执行。 1.使用并发处理: Go语言天生支持并发编程,可以充分利用多核处理器的优势。通过......
  • 如何建立自己的代理IP池,减少爬虫被封的几率
    前言建立自己的代理IP池可以帮助减少爬虫被封的几率。通过使用代理IP,我们可以隐藏爬虫的真实IP地址,提高爬取网站的稳定性和安全性。本文将介绍如何建立一个代理IP池,并提供相关代码示例。一、了解代理IP的工作原理在开始建立代理IP池之前,我们需要了解代理IP的工作原理。代理IP是一个......
  • Request+Python微博爬虫实战
    1Request爬虫基础Request爬虫基本步骤:1、构造URL;2、请求数据;3、解析数据;4、保存数据例:爬取豆瓣某图片importrequests#第1步:构造URLurl='https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2624516210.jpg'#第2步:请求数据r=requests.get(url)#第3步:解......