首页 > 其他分享 >爬虫爬取网页图片《滕王阁序》文徵明 行草

爬虫爬取网页图片《滕王阁序》文徵明 行草

时间:2023-09-14 17:55:51浏览次数:34  
标签:__ url request 爬虫 urllib 爬取 page 滕王阁

python爬取网页图片

import urllib.request  # python自带的爬操作url的库
import re # 正则表达式

def getImage(url):
headers = {
'User-Agent': 'Mozilla/5.0(linux; android 6.0; Nexus 5 Build/MRA58N) \
AppleWebKit/537.36(KHTML, like Gecko) Chrome/56.0.2924.87 Mobile Safari/537.36'
}
url = urllib.request.Request(url, headers=headers)
page = urllib.request.urlopen(url).read()
page = page.decode('UTF-8')

imageList = re.findall(r'(https://img[^\s]*?)"', page)
x = 0
for imageUrl in imageList[:20]:
try:
print('正在下载: %s' % imageUrl)
image_save_path = 'D:/Users/Desktop/tmp/imagebugliang/%d.jpg' % x
# 下载图片并且保存到指定文件夹中
urllib.request.urlretrieve(imageUrl, image_save_path)
x = x + 1
except:
continue


if __name__ == '__main__':
url = "https://www.zmkm8.com/article-7194-1.html"
getImage(url)

标签:__,url,request,爬虫,urllib,爬取,page,滕王阁
From: https://www.cnblogs.com/thirteen-yang/p/17703060.html

相关文章

  • 【Python爬虫】python打印本地代理
    在进行网络爬虫时,使用代理是非常重要的。因为爬虫经常会被网站封IP,而代理可以隐藏你的真实IP地址,让你可以更不受限制地爬取数据。本文将介绍如何在Python中打印代理,包括代理IP的使用以及代码案例。代理IP的使用在使用代理IP时,需要注意一些事项,包括:获取代理IP你可以在一......
  • 数据爬取与SOCKS5的完美结合​
    数据爬取与SOCKS5的完美结合大家好!在进行数据爬取的过程中,我们经常需要应对反爬机制和IP限制等问题。今天,我将与大家分享一种强大的工具:数据爬取与SOCKS5代理的完美结合,帮助我们更高效地获取所需数据。1.什么是SOCKS5代理?SOCKS5是一种网络代理协议,能够在客户端和服务器之间传输数......
  • Python爬虫-IP隐藏技术与代理爬取
    在进行爬虫程序开发和运行时,常常会遇到目标网站的反爬虫机制,最常见的就是IP封禁,这时需要使用IP隐藏技术和代理爬取。一、IP隐藏技术IP隐藏技术,即伪装IP地址,使得爬虫请求的IP地址不被目标网站识别为爬虫。通过IP隐藏技术,可以有效地绕过目标网站对于特定IP地址的限制。随机User-Agent......
  • Python爬虫实战:分析在线视频平台数据
    当涉及抓取和分析在线视频平台数据时,Python爬虫是一个强大而有用的工具。下面我将为您提供一些步骤和代码示例,来帮助您进行这样的实战操作。1.确定目标平台:首先,您需要确定要抓取和分析数据的在线视频平台。常见的在线视频平台包括YouTube、B站、优酷等。不同平台可能有不同的数据抓......
  • Python爬虫学习系列教程-----------爬虫系列 你值的收藏
    大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与大家的交流。Python版本:2.7一、爬虫入门1. Python......
  • 用python爬取天气
    之前做过这么个小网站,能够爬取天气,然后感觉没什么用,有上网站的时间用手机都看完了,然后就寻思能不能发到自己微信或者qq或者邮箱里先写下怎么把数据提出来 importrequestsimportjsonurl=你自己的网址result=requests.get(url)#print(result.text)data=json.loads......
  • 【Python爬虫实操】 如何在任务中高效处理命令参数
    在今天互联网技术的发展中,以Python为代表的脚本语言在各个领域都广泛应用。而处理命令行参数是Python编程中常见的需求之一。本文将介绍如何在Python中高效处理命令行参数,帮助更好地利用Python进行开发。1.了解命令行参数的基本概念命令行参数是在运行程序时由用户在命令行中输入的......
  • python爬虫练习2-百度热榜
    importrequestsfromlxmlimportetreeurl='https://top.baidu.com/board?tab=realtime'headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/116.0.0.0Safari/537.36&......
  • Python 网页爬虫原理及代理 IP 使用
    一、Python网页爬虫原理Python是一种高效的编程语言,在Web开发和数据分析领域广受欢迎。Python的优秀模块使其更加适合大规模数据处理和Web服务的编程。网络爬虫是Python开发者最常用的工具之一。网络爬虫(WebCrawler)是一种自动化程序,可以模拟人类浏览器的行为,自动在互联网......
  • 数据驱动的SEO优化策略:Python爬取工具加速效果评估
    在当下竞争激烈的网络环境中,搜索引擎优化(SEO)是网站主和数字营销人员必须重视并不断改进的关键领域。而要实现成功的SEO战略,数据分析和持续优化成为至关重要。今天,我将向给大家介绍一种基于数据驱动原则、利用Python爬虫工具来加速SEO效果评估与调整过程的高效方法。通过有......