在Python网络爬虫中,requests
库是一个非常流行且强大的HTTP库,它使得发送HTTP请求变得非常简单。以下是如何在Python网络爬虫中引用并使用requests
库的基本步骤:
1.安装requests库:
在终端输入命令:
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple requests
安装成功,在终端输入pip3 list,如果有requests 2.32.2 ,说明已安装成功。
2. 导入requests库:
在python输入:import requests
3. 发送HTTP请求
requests
库支持多种HTTP请求方法,如GET、POST、PUT、DELETE等。这里以GET请求为例,演示如何发送请求并获取响应:
import requests
#定义和发送要爬取的网页,以百度为例
response = requests.get(url='https://www.baidu.com/')
# 获取响应内容(以文本形式)
print(response.text)
4.设置请求头
有些网站可能会要求你在发送请求时携带特定的请求头(如User-Agent),以避免被识别为爬虫:
#以百度为例
headers = {
"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36 Edg/129.0.0.0"
}
response = requests.get(url, headers=headers)
user-agent的查找如下图
注:不同网站,user-agent所在的位置不同 。
5.发送POST请求
如果你想发送POST请求,可以这样做:
import requests
data = {"name":"测试"}
#post请求获取页面数据,并向页面传递数据
respone = requests.post("http://example.com/api",data=data)
print(respone.text)
标签:HTTP,请求,python,爬虫,发送,import,requests
From: https://blog.csdn.net/c11454345/article/details/142458683