爬虫_初步（爬取豆瓣图片）

时间：2023-12-21 21:46:50浏览次数：31

标签：headers request 爬虫 urllib 爬取 re 豆瓣 imgurl imginfo

引用python库

from urllib.request import urlopen
import urllib.request,urllib.error
import re

找到本机的headers

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0'}

url = 'https://movie.douban.com/top250'
request = urllib.request.Request(url, headers=headers)#发送请求
response = urllib.request.urlopen(request)
get_1 = response.read().decode('utf-8')
get_1



imginfo = re.findall(r'<img width="100" alt="(.*?)" src="(.*?)" class="">',get_1)
imginfo
for i in range(0,20):
    imgurl = imginfo[i]
    imginfo[0]
    imgreq = urlopen(imgurl[1])
    imgc = imgreq.read()
    imgf = open(r'D:\\A-lesson work\\CCUT\\img2\\'+ imgurl[0]+'.jpg','wb')
    imgf.write(imgc)
    imgf.close()

　比较重要的正则提取关键字　Python---re.findall的用法_python中re.findall用法-CSDN博客

标签：headers,request,爬虫,urllib,爬取,re,豆瓣,imgurl,imginfo
From： https://www.cnblogs.com/gy-10/p/17920169.html

Python编写接口测试文档（以豆瓣搜索为例）
前言很多人会使用postman工具，或者熟悉python，但不一定会使用python来编写测试用例脚本，postman里面可以完整的将python代码复制出来。（以下所有内容以豆瓣网站搜索功能为例子）一、postman接口用例转换为python测试用例打开postman，点击右侧的</>图标，页面右边会显示脚本，顶部修改导出的语......
爬虫新问题
Traceback(mostrecentcalllast):File"D:\software\python\python310\lib\site-packages\urllib3\connectionpool.py",line790,inurlopenresponse=self._make_request(File"D:\software\python\python310\lib\site-packages\u......
爬虫-今日头条我的收藏-增量式导入到mongodb（三）
背景：续接前文，当我们有了原始数据之后，自然会想如何利用这些数据。这些文件数据都是json格式，打开一个文本文件眼睛都要看花。所以想把这些数据导入到对应的数据库中，市面上几乎所有数据库都支持json格式存储。随着时间的推移，用户不断有新的收藏，这样就不断产生新的收藏文件。需要不......
Python爬虫框架推荐及其特点
在网络爬虫开发中，选择适合的爬虫框架可以大大提高开发效率和爬取数据的质量。Python作为一种广泛应用于爬虫开发的编程语言，有许多优秀的爬虫框架可供选择。本文将介绍几个好用的Python爬虫框架，并列举它们的特点，帮助您选择适合自己的框架。1.Scrapy：Scrapy是一个强大的开源爬虫框架，被......
《Python网络爬虫：从入门到实战》
......
Python的Requests库与网页爬取
requests库的几种方法其他几个方法内部实际都调用了requests.request()方法 Response对象的属性首先要使用r.status_code判断连接是否成功。 Request库的异常爬取网页的通用代码需要处理异常，使爬取网页变得更有效、可靠、稳定。 HTTP 无......
使用XPath进行网页爬取的Python实现
XPath是一种用于在XML和HTML文档中进行导航和查询的语言。在网页爬取中，XPath可以帮助我们定位和提取特定的网页元素，从而实现数据的抓取和提取。本文将介绍如何使用Python中的XPath库来进行网页爬取。1.安装依赖库：在使用XPath进行网页爬取之前，我们需要安装相关的依赖库。Python中常......
提高Go爬虫效率的方法
Go语言是一种高效、并发性能出色的编程语言，非常适合用于开发爬虫程序。然而，为了提高Go爬虫的效率，我们需要注意一些优化方法。本文将介绍一些提高Go爬虫效率的方法，帮助您优化和加速爬虫程序的执行。 1.使用并发处理： Go语言天生支持并发编程，可以充分利用多核处理器的优势。通过......
如何建立自己的代理IP池，减少爬虫被封的几率
前言建立自己的代理IP池可以帮助减少爬虫被封的几率。通过使用代理IP，我们可以隐藏爬虫的真实IP地址，提高爬取网站的稳定性和安全性。本文将介绍如何建立一个代理IP池，并提供相关代码示例。一、了解代理IP的工作原理在开始建立代理IP池之前，我们需要了解代理IP的工作原理。代理IP是一个......
Request+Python微博爬虫实战
1Request爬虫基础Request爬虫基本步骤：1、构造URL；2、请求数据；3、解析数据；4、保存数据例：爬取豆瓣某图片importrequests#第1步：构造URLurl='https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2624516210.jpg'#第2步：请求数据r=requests.get(url)#第3步：解......

爬虫_初步（爬取豆瓣图片）

相关文章

赞助商

阅读排行