首页 > 编程语言 >《python爬虫入门教程03--重剑无峰168》

《python爬虫入门教程03--重剑无峰168》

时间:2024-11-03 21:50:38浏览次数:6  
标签:03 python 入门教程 request urllib filename url urlretrieve 下载

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

python爬虫入门教程03


前言

本此程序主要演示python爬虫来简单爬取网页、图片、视频的示例。但是这是一个简单版的,一些未经过处理的网站可以直接爬取。
对了顺便说一下url链接怎么找,找到想要的网页,按下F12然后找到对应网站的元素定位,找到想要下载的文件的url。

一、urllib.request.urlretrieve()函数的介绍?


urllib.request.urlretrieve(url, filename=None, reporthook=None, data=None)
# 1.参数说明
# url:外部或本地URL。这是要下载的网络资源的地址。
# filename:指定保存到本地的路径(如果未指定该参数,urllib会生成一个临时文件来保存数据)。这个参数允许用户自定义下载文件的保存位置和名称。
# reporthook:一个回调函数,当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。这个回调函数可以用于显示当前的下载进度。回调函数将接收三个参数:到目前为止传输的块计数(以字节为单位的已下载数据量)、一个块的大小(每次读取的数据块大小)以及文件的总大小(整个网络资源的大小)。需要注意的是,在一些老旧的FTP服务器上,文件总大小可能为-1,因为这些服务器不返回文件大小以响应检索请求。
# data:指POST到服务器的数据。这个参数通常用于发送POST请求时的数据体,默认为None。当使用GET请求时,通常不需要设置此参数

# 2.返回值
# 该函数返回一个包含两个元素的元组(filename, headers):
# 
# filename:保存到本地的路径,即下载后的文件名。
# headers:服务器的响应头,是调用urlopen()后的返回对象再调用info()方法后的返回值(用于远程对象)

二、使用示例

import urllib.request

# 1.下载网页
url_page = 'http://www.baidu.com'
# url代表的是下载的路径,filename为文件名
urllib.request.urlretrieve(url_page, 'baidu.html')

# 2.下载图片
url_img = 'https://p4.itc.cn/images01/20231216/8dd49fb9bc624c309447d0b44503aedc.jpeg'
# url代表的是下载的路径,filename为文件名
urllib.request.urlretrieve(url=url_img, filename='yangmi.jpg')

# 3.下载视频
url_video = 'https://www.ixigua.com/bab186ec-7df5-4e5a-a6fe-9240e3de35fc'
# url代表的是下载的路径,filename为文件名
urllib.request.urlretrieve(url=url_video, filename='中国工厂.mp4')

总结

1.上述程序应该都看的懂,主要链接应该如何找。
2.图片的链接,比如百度搜索图片->找到图片右键【复制图片地址】->【粘贴过来即可】
3.视频地址->F12->下方图片蓝色位置->定位视频的src=“https…” 即可
在这里插入图片描述

标签:03,python,入门教程,request,urllib,filename,url,urlretrieve,下载
From: https://blog.csdn.net/xaing1314/article/details/143471466

相关文章

  • 影刀RPA实战:嵌入python,如虎添翼
    1. 影刀RPA与Python的关系影刀RPA与Python的关系可以从以下几个方面来理解:技术互补:影刀RPA是一种自动化工具,它允许用户通过图形化界面创建自动化流程,而Python是一种编程语言,常用于编写自动化脚本。影刀RPA可以与Python结合使用,利用Python的强大功能来实现更复杂的自动化需......
  • 【python-程序设计赛道-模拟题笔记整理】2024年第六届全国高校计算机能力挑战赛
    Python知识点整理不都正确是指要求找错误的如果没有错误的,全都是事实就没有符合题意的所以选选项D,三个选项不都正确模块模块不能被多次导入模块是构造程序的方式在执行时,一个模块只会被导入一次python程序文件是一个模块包语法空行不是python语法的一部分缩进是p......
  • 2024-11-03:得到更多分数的最少关卡数目。用go语言,Alice 和 Bob 正在进行一个有 n 个关
    2024-11-03:得到更多分数的最少关卡数目。用go语言,Alice和Bob正在进行一个有n个关卡的游戏,其中每个关卡要么是困难模式(possible[i]==0),要么是简单模式(possible[i]==1)。玩家在游戏中获得分数的规则如下:通过简单模式的关卡可得1分,而遇到困难模式的关卡将扣除1分。Alice从......
  • Python 一维列表基础语法
    【Python】【基础语法】【列表】引子创建一个列表获取数据的类型输出列表获取列表的长度获取元素的值获取元素的索引遍历列表练习引子列表(list)是python的基本数据类型之一。一维列表,常常被简称为列表,亦称为向量(vector)。六大基本数据类型数字型字符串str列表list元组......
  • 使用wxpython开发跨平台桌面应用,基类对话框窗体的封装处理
    在开发桌面界面的时候,往往都需要对一些通用的窗体进行一些抽象封装处理,以便统一界面效果,以及继承一些通用的处理过程,减少重复编码。本篇随笔介绍使用wxpython开发跨平台桌面应用,基类对话框窗体的封装处理,介绍基于wx.lib.sized_controls.SizedDialog对话框类的基类封装,以便简化子......
  • 基于Python+Django的汽车销售管理系统的设计与实现
    课题简介背景随着汽车行业的快速发展,汽车销售业务变得越来越复杂。汽车型号众多、配置多样,销售渠道也日益多元化,包括展厅销售、网络销售等。传统的汽车销售管理方式,如依靠纸质文件和简单的电子表格记录客户信息、车辆库存、销售订单等,已无法满足高效管理的需求。信息的分......
  • 基于Python+Django的人事管理系统的设计与实现
    课题简介背景在企业或组织的发展过程中,人事管理工作日益复杂。随着员工数量的增加、组织结构的多样化以及业务需求的不断变化,传统的人事管理方式面临诸多挑战。例如,员工信息的记录和更新依赖手工文档或简单电子表格,易出现信息不准确、不完整和更新不及时的问题。招聘、培......