Python爬虫小组:255、229、218、219
一.安装软件
软件名称:PyCharm
可以到PyCharm官网下载免费的Community(社区)版本的PyCharm,这个版本虽然不及收费的Professional(专业)版本的PyCharm功能强大,但对于一般应用足够了。(书上抄的)
二.匹配数据
在根目录上右击,新建一个目录,再在此目录里新建一份Python文件
1.发送请求,获取响应
顺序:导入库→地址→发送请求→获取响应
点开Python文件
首先,导入requests库,(呈现灰色状态时是还未引用)
输入requests库下面有红色波浪线,需要去下载
文件中找到设置
找到“+”添加
搜索requests,安装软件
注意urllib3的版本,安装reputes可能会出现urllib3 v2.0 only supports OpenSSL 1.1.1+,这是因为urllb3版本过高,所以我们需要把这个换个版本
换成1.26.18版本,安装
输入需要的网址发送请求→获取响应
- import 导入
- url 网站地址
- response 响应
- requests 请求
我们试运行一下,运行注意换成当前文件运行
发现出现乱码,是编码格式的问题,可以使用UA欺骗
- UA欺骗:指的是User-Agent,这是一个请求头信息,是请求载体的身份标识,可以将此伪装成某个浏览器
- headers是当前发起载体的身份标识
- 字典:{"键":"值"}
寻找此网站的User-Agent,回到浏览器,按F12,打开开发者工具,找网络
刷新一下网站,找到第一个,点标头,划到最底下
复制到刚刚的字典里,注意字典格式,还有指定要响应的关键字
点击查看代码
import requests #导入requests
url="https://www.baidu.com/" #网站地址
#UA欺骗
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0"}
response=requests.get(url=url,headers=headers) #请求响应此url
print(response.text)