Python 爬虫神器 requests 工具

时间：2023-05-27 17:44:33浏览次数：46

标签：Python 爬虫 headers https requests payload

一、模块安装

pip install requests

二、常用方法

在实际的爬虫中，其实真正用到的只有 GET、POST，像其他的方法基本用不到，比如：DELETE、HEAD、PUT 等。

1、GET 方法

headers = {'user-agent': 'my-app/0.0.1'}
payload = {'key1': 'value1', 'key2': 'value2'}
requests.get(url, params=payload, headers=headers)

2、POST 方法

headers = {'user-agent': 'my-app/0.0.1'}
payload = {'key1': 'value1', 'key2': 'value2'}
requests.post(url, data=payload, headers=headers)

3、参数设置

禁用证书验证
verify = False
如果爬取的目标网站是 HTTPS 的，那么需要设置下这个参数。

代理设置
proxies = {
'http': 'http://10.10.1.10:3128',
'https': 'http://10.10.1.10:1080',
}
proxies = proxies
设置代理的目的是隐藏真实的IP地址，防止被禁IP地址。

HTTP Auth 认证

auth = HTTPBasicAuth('admin', 'admin')
如果网站设置了 Auth 认证，需要配置这个参数传递账号密码。

附：
requests地址 https://requests.readthedocs.io

三、案例

搞爬虫都是注重效率的，俗话说："工欲善其，必先利其器"。那我们在这里利用一个工具将 CURL 请求直接生成 Python 代码。

复制网络请求的 CURL 命令。

将 CURL 命令转换成 Python 代码

最终生成的 Python 代码

附：
目标网址 https://spa1.scrape.center/
工具地址 https://curlconverter.com/python/

四、小结

1、requests 工具是编写爬虫程序中最常用的模块。
2、为了提高爬虫程序的编写效率直接使用 curlconverter 工具，将 curl 命令转换成 Python 代码。
3、本篇文章主要是作为笔记记录下，希望这些内容能够对你有帮助。

标签：Python,爬虫,headers,https,requests,payload
From： https://www.cnblogs.com/yxhblogs/p/17412646.html

PyCharm 版本2020.3 如何设置默认的python版本以及对应的依赖镜像源
要在PyCharm2020.3中设置默认的Python版本以及依赖镜像源，请按照以下步骤进行操作：设置默认的Python版本：打开PyCharm，并打开您的项目。点击菜单栏上的"File"（文件）选项，然后选择"Settings"（设置）。在弹出的窗口中，展开"Project:YourProjectName"（项目：您的项目名）。点击"ProjectI......
Python丨tkinter开发常用的29种功能用法（建议码住）
在Python软件开发中，tkinter中command功能的作用是为按钮、菜单等组件绑定回调函数，用户操作该组件时会触发相应的函数执行。本文涵盖了各种组件和功能：1、为Button组件（按钮）绑定回调函数importtkinterastkdefsay_hello():print("HelloWorld!")root=tk.Tk()......
花朵识别系统Python实现，基于深度学习卷积神经网络算法
一、背景花朵识别系统，基于Python实现，深度学习卷积神经网络，通过TensorFlow搭建卷积神经网络算法模型，并对数据集进行训练最后得到训练好的模型文件，并基于Django搭建可视化操作平台。在当今信息化社会，图像识别技术在各种领域都展现出了重要的应用价值，包括医学影像分析、自动驾驶、人脸......
python内置库--hashlib
1关于hashlib与hash算法python的hashlib提供了对hash算法的的支持，常见的算法有MD5SHA1SHA224等，对不同的算法，hashlib提供了一些通用的函数，以方便我们的使用hash算法个人理解是，它可以将任意长度的二进制值变为固定长度的二进制值。通常，这个固定长度的二进制值叫做hash值，也叫......
Python格式化字符串
Python为我们提供了四种格式化字符串的办法，分别是：%运算符字符串format格式化字符串字面值模板字符串%运算符这种方法最常见，简单略过s="Thisis%s'sblog"%"结了冰的可乐"print(s)使用%运算符格式化字符串的语法是format%values。format是一个字符串，values可以......
Python 列表使用
一、列表推导式(1)条件推导式value1：如果条件表达式condition成立，返回value1；如果条件表达式不成立，返回value2；condition：条件表达式Value2：如果条件表达式condition成立，返回value1；如果条件表达式不成立，返回value2；value1ifconditionelseValue2如，判断一个数是偶数......
配置 Orchestra Python API
简介：OrchestraPythonAPI是开发者构建本地工具链的定海神针，你可以轻而易举的把它集成到制作流程中，拓展自身业务的边界。OrchestraPythonAPI与网页端接口高度同构，不仅易于理解和使用，还兼容python2.7至3.11的版本。OrchestraPythonAPI工具并不附带Python运行环境......
如何通过Python将JSON格式文件导入redis？
摘要：如果希望将JSON文件导入到Redis中，首先要做的就是连接到redis服务。本文分享自华为云社区《Python将JSON格式文件导入redis，多种方法》，作者：梦想橡皮擦。在导入前需要先确定你已经安装Redis，并且可以启动相关服务。windows上启动redis的命令是redis-server.exer......
python循环怎么执行不了
在Python编程中，循环是一种重要的语句类型，可以让我们对一组数据进行重复的操作。如果您的循环无法正常执行，可能会有多种原因。下面是一些可能导致循环无法正常执行的原因和解决方法：循环条件不满足：循环语句的执行需要满足一定的条件，如果条件不满足，循环就不会执行。请检查您的循......
Python相关性分析代码
进行相关性分析的代码主要涉及数据处理和统计分析。以下是使用Python进行相关性分析的一般步骤：1.导入必要的库：importpandasaspdimportnumpyasnpimportseabornassnsimportmatplotlib.pyplotasplt2.读取数据：将你的数据加载到PandasDataFrame中。data=pd.read_c......