要学习爬虫我们首先要了解requests这个模块
Python requests 模块
Python requests 是一个常用的 HTTP 请求库,可以方便地向网站发送 HTTP 请求,并获取响应结果。
requests 模块比 urllib 模块更简洁。
使用 requests 发送 HTTP 请求需要先导入 requests 模块:
import requests
导入之后我们的python就可以网页发送请求并获取响应了,下面是常用请求方法示例:
1 import requests 2 url="https://www.cnblogs.com/Curitaos/" 3 headers={ 4 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE' 5 } #可以指定我们在发送请求时所需要的request头 6 params={ 7 "key1":"value1", 8 "key2":"value2" 9 }#可在相关的请求方法后添加的查询参数 10 data={ 11 "key1":"value1", 12 "key2":"value2" 13 }#请求体 14 # respond=requests.get(url=url,headers=headers);#可以使用params指定参数或者将参数写入url中再在url中放置变量 15 # respond=requests.get(url,headers=headers,params=params); 16 # respond=requests.post(url,headers=headers,data=data)#在发送post请求时通过data发送相关的参数
返回的request对象包含了各种响应的信息,该对象包含了具体的响应信息,如状态码、响应头、响应内容等:
1 print(response.status_code) # 获取响应状态码 2 print(response.headers) # 获取响应头 3 print(response.content) # 获取HTTP响应内容的 二进制(bytes) 形式
4.print(respond.text)#http响应内容的 字符串(str) 形式,请求url对应的页面内容
一般来说文本用.text转换,图片视频等用.content转换
如果解析出现乱码可以使用该方法进行编码转换detail_name.encode('iso-8859-1').decode('GBK')