首页 > 编程语言 >Python 爬虫神器 requests 工具

Python 爬虫神器 requests 工具

时间:2023-05-27 17:44:33浏览次数:46  
标签:Python 爬虫 headers https requests payload

一、模块安装

pip install requests

二、常用方法

在实际的爬虫中,其实真正用到的只有 GET、POST,像其他的方法基本用不到,比如:DELETE、HEAD、PUT 等。

1、GET 方法

headers = {'user-agent': 'my-app/0.0.1'}
payload = {'key1': 'value1', 'key2': 'value2'}
requests.get(url, params=payload, headers=headers)

2、POST 方法

headers = {'user-agent': 'my-app/0.0.1'}
payload = {'key1': 'value1', 'key2': 'value2'}
requests.post(url, data=payload, headers=headers)

3、参数设置

禁用证书验证
verify = False
如果爬取的目标网站是 HTTPS 的,那么需要设置下这个参数。

代理设置
proxies = {
'http': 'http://10.10.1.10:3128',
'https': 'http://10.10.1.10:1080',
}
proxies = proxies
设置代理的目的是隐藏真实的IP地址,防止被禁IP地址。

HTTP Auth 认证

auth = HTTPBasicAuth('admin', 'admin')
如果网站设置了 Auth 认证,需要配置这个参数传递账号密码。

附:
requests地址 https://requests.readthedocs.io

三、案例

搞爬虫都是注重效率的,俗话说:"工欲善其,必先利其器"。那我们在这里利用一个工具将 CURL 请求直接生成 Python 代码。

复制网络请求的 CURL 命令。

将 CURL 命令转换成 Python 代码

最终生成的 Python 代码

附:
目标网址 https://spa1.scrape.center/
工具地址 https://curlconverter.com/python/

四、小结

1、requests 工具是编写爬虫程序中最常用的模块。
2、为了提高爬虫程序的编写效率直接使用 curlconverter 工具,将 curl 命令转换成 Python 代码。
3、本篇文章主要是作为笔记记录下,希望这些内容能够对你有帮助。

标签:Python,爬虫,headers,https,requests,payload
From: https://www.cnblogs.com/yxhblogs/p/17412646.html

相关文章

  • PyCharm 版本2020.3 如何设置默认的python版本 以及 对应的依赖镜像源
    要在PyCharm2020.3中设置默认的Python版本以及依赖镜像源,请按照以下步骤进行操作:设置默认的Python版本:打开PyCharm,并打开您的项目。点击菜单栏上的"File"(文件)选项,然后选择"Settings"(设置)。在弹出的窗口中,展开"Project:YourProjectName"(项目:您的项目名)。点击"ProjectI......
  • Python丨tkinter开发常用的29种功能用法(建议码住)
    在Python软件开发中,tkinter中command功能的作用是为按钮、菜单等组件绑定回调函数,用户操作该组件时会触发相应的函数执行。本文涵盖了各种组件和功能:1、为Button组件(按钮)绑定回调函数importtkinterastkdefsay_hello():print("HelloWorld!")root=tk.Tk()......
  • 花朵识别系统Python实现,基于深度学习卷积神经网络算法
    一、背景花朵识别系统,基于Python实现,深度学习卷积神经网络,通过TensorFlow搭建卷积神经网络算法模型,并对数据集进行训练最后得到训练好的模型文件,并基于Django搭建可视化操作平台。在当今信息化社会,图像识别技术在各种领域都展现出了重要的应用价值,包括医学影像分析、自动驾驶、人脸......
  • python内置库--hashlib
    1关于hashlib与hash算法python的hashlib提供了对hash算法的的支持,常见的算法有MD5SHA1SHA224等,对不同的算法,hashlib提供了一些通用的函数,以方便我们的使用hash算法个人理解是,它可以将任意长度的二进制值变为固定长度的二进制值。通常,这个固定长度的二进制值叫做hash值,也叫......
  • Python格式化字符串
    Python为我们提供了四种格式化字符串的办法,分别是:%运算符字符串format格式化字符串字面值模板字符串%运算符这种方法最常见,简单略过s="Thisis%s'sblog"%"结了冰的可乐"print(s)使用%运算符格式化字符串的语法是format%values。format是一个字符串,values可以......
  • Python 列表使用
    一、列表推导式(1)条件推导式value1:如果条件表达式condition成立,返回value1;如果条件表达式不成立,返回value2;condition:条件表达式Value2:如果条件表达式condition成立,返回value1;如果条件表达式不成立,返回value2;value1ifconditionelseValue2如,判断一个数是偶数......
  • 配置 Orchestra Python API
    简介:OrchestraPythonAPI是开发者构建本地工具链的定海神针,你可以轻而易举的把它集成到制作流程中,拓展自身业务的边界。OrchestraPythonAPI与网页端接口高度同构,不仅易于理解和使用,还兼容python2.7至3.11的版本。OrchestraPythonAPI工具并不附带Python运行环境......
  • 如何通过Python将JSON格式文件导入redis?
    摘要:如果希望将JSON文件导入到Redis中,首先要做的就是连接到redis服务。本文分享自华为云社区《Python将JSON格式文件导入redis,多种方法》,作者:梦想橡皮擦。在导入前需要先确定你已经安装Redis,并且可以启动相关服务。windows上启动redis的命令是redis-server.exer......
  • python循环怎么执行不了
    在Python编程中,循环是一种重要的语句类型,可以让我们对一组数据进行重复的操作。如果您的循环无法正常执行,可能会有多种原因。下面是一些可能导致循环无法正常执行的原因和解决方法:循环条件不满足:循环语句的执行需要满足一定的条件,如果条件不满足,循环就不会执行。请检查您的循......
  • Python相关性分析代码
    进行相关性分析的代码主要涉及数据处理和统计分析。以下是使用Python进行相关性分析的一般步骤:1.导入必要的库:importpandasaspdimportnumpyasnpimportseabornassnsimportmatplotlib.pyplotasplt2.读取数据:将你的数据加载到PandasDataFrame中。data=pd.read_c......