提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
python爬虫入门教程03
前言
本此程序主要演示python爬虫来简单爬取网页、图片、视频的示例。但是这是一个简单版的,一些未经过处理的网站可以直接爬取。
对了顺便说一下url链接怎么找,找到想要的网页,按下F12然后找到对应网站的元素定位,找到想要下载的文件的url。
一、urllib.request.urlretrieve()函数的介绍?
urllib.request.urlretrieve(url, filename=None, reporthook=None, data=None)
# 1.参数说明
# url:外部或本地URL。这是要下载的网络资源的地址。
# filename:指定保存到本地的路径(如果未指定该参数,urllib会生成一个临时文件来保存数据)。这个参数允许用户自定义下载文件的保存位置和名称。
# reporthook:一个回调函数,当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。这个回调函数可以用于显示当前的下载进度。回调函数将接收三个参数:到目前为止传输的块计数(以字节为单位的已下载数据量)、一个块的大小(每次读取的数据块大小)以及文件的总大小(整个网络资源的大小)。需要注意的是,在一些老旧的FTP服务器上,文件总大小可能为-1,因为这些服务器不返回文件大小以响应检索请求。
# data:指POST到服务器的数据。这个参数通常用于发送POST请求时的数据体,默认为None。当使用GET请求时,通常不需要设置此参数
# 2.返回值
# 该函数返回一个包含两个元素的元组(filename, headers):
#
# filename:保存到本地的路径,即下载后的文件名。
# headers:服务器的响应头,是调用urlopen()后的返回对象再调用info()方法后的返回值(用于远程对象)
二、使用示例
import urllib.request
# 1.下载网页
url_page = 'http://www.baidu.com'
# url代表的是下载的路径,filename为文件名
urllib.request.urlretrieve(url_page, 'baidu.html')
# 2.下载图片
url_img = 'https://p4.itc.cn/images01/20231216/8dd49fb9bc624c309447d0b44503aedc.jpeg'
# url代表的是下载的路径,filename为文件名
urllib.request.urlretrieve(url=url_img, filename='yangmi.jpg')
# 3.下载视频
url_video = 'https://www.ixigua.com/bab186ec-7df5-4e5a-a6fe-9240e3de35fc'
# url代表的是下载的路径,filename为文件名
urllib.request.urlretrieve(url=url_video, filename='中国工厂.mp4')
总结
1.上述程序应该都看的懂,主要链接应该如何找。
2.图片的链接,比如百度搜索图片->找到图片右键【复制图片地址】->【粘贴过来即可】
3.视频地址->F12->下方图片蓝色位置->定位视频的src=“https…” 即可