首页 > 其他分享 >7.6 爬虫基础知识学习 requests的使用

7.6 爬虫基础知识学习 requests的使用

时间:2023-07-06 21:24:37浏览次数:35  
标签:www get res 爬虫 7.6 print cookie requests

1. requests的快速使用 

/1 爬虫定义:可见即可爬

/2 安装resquests模块

正确路径下输入 pip install requests

/3 用requests发送get请求

import requests
# res是响应对象 就是http响应 python包装成了对象(响应头 ,响应体等)
res = requests.get('https://www.cnblogs.com/abc683871/')
print(res.text) # 响应体转为字符串

/4 用requests发送携带参数的get请求

# res是响应对象 就是http响应 python包装成了对象(响应头 ,响应体等)
res = requests.get('https://www.cnblogs.com/abc683871/',params={'name':'jack'}) # 利用params参数传一个字典会自动把他拼接到url后面
res = requests.get('https://www.baidu.com/s?wd=%E5%A1%9E%E5%B0%94%E8%BE%BE%E4%BC%A0%E8%AF%B4',params={'name':'jack'})
print(res.url)

/5 url的编码和解码

from urllib.parse import quote,unquote
# 解码
print(unquote('%E5%A1%9E%E5%B0%94%E8%BE%BE%E4%BC%A0%E8%AF%B4'))
# 编码
print(quote('王国之泪'))

 / 6 携带请求头发送get请求

# 请求头中正常有哪些东西:1 user-Agent:客户端类型 2 referer;上一个页面的地址 3 cookie
header={
'User-Agent':
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}
res = requests.get('https://dig.chouti.com/',headers=header) # 携带请求头中的User-Agent
print(res.text)

/7 发送post请求

header={
'Referer':
'http://www.aa7a.cn/user.php?&ref=http%3A%2F%2Fwww.aa7a.cn%2F',
'User-Agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}
data={
'username': '[email protected]',
'password': 'lqz123',
'captcha': '1111',
'remember': 1,
'ref': 'http://www.aa7a.cn/',
'act': 'act_login',
}
# 两种编码方式
# 编码方式是urlencoded
res = requests.post('http://www.aa7a.cn/user.php',headers=header,data=data)
# 编码方式是json
res = requests.post('http://www.aa7a.cn/user.php',headers=header,json=data)
print(res.text)

 /8 获取登录成功的cookie

cookie = res.cookies
print(cookie)

 方式一:

另外创建字段携带cookie发送post请求
res1 = requests.get('http://www.aa7a.cn/',cookies=cookie)
print('[email protected]' in res1.text) # 判断账号是否在页面中

 方式二:

在请求头中携带cookie发送post请求

header={
'User-Agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36',
'Cookie':
'deviceId=web.eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJhNTA5NzE0YS1hYTNmLTQzMDItODgzYy00YjM5MzcxZDExMDUiLCJleHBpcmUiOiIxNjkxMjM2ODQyMzAzIn0.StoeBF6lSJKrGGnUvzSgzEqg5Lgj12mUqy8R10itVPM; Hm_lvt_03b2668f8e8699e91d479d62bc7630f1=1688644843; gdxidpyhxdE=bz4yL%5C90nH9u1PHGl0STR%2Bxo6%2B%5CqTYWugpLZKpWh5wgsvYnQ3pzf8UHev2bSYH4WOk%2B%5CMRVRKgX%2FgWR5QEbxzNSTMC9p4%5CiVEkmRd24VDvM0gqc25Qey13h%2BepaJZjQnqDp%5C4d6gyIYu992Abc8vcD8WYNRdEUGG7uEXT0rDc8xHBsqI%3A1688648636718; YD00000980905869%3AWM_NI=nLEqy1%2Fuqjh3pGpEPH3Yqzhc7k73Uz%2BR2yHA6Bz1tk5pxLeicd440md3V7lCLEql9yM%2BPK4j0Zws5pBWkYZzoZ2U8%2FK71LdgJc5A1E9vrD%2FfymE3hPtf9dJZmeaQL%2F1eS2w%3D; YD00000980905869%3AWM_NIKE=9ca17ae2e6ffcda170e2e6ee90e1509ab9afa2d63abbbc8ba3d45f969f9e83d13bf3a6aaa8f5219b8c9aafce2af0fea7c3b92aae948b92fc3bedabbf8beb39b499c0a6d344f187bf9beb69f5b5f9d4d872e98efe9acb4bf69eb6d2f761f7b0b8ade863a1bcfcd5b367a8ed9ad8ef49909bbf8dbc738ff5a0acb762f486b994b87c8289a5bad972ad86feb6bb2589e9ffade76d8abdfba2b44ffbaabea5ae6ebbb38bd4eb5cb8baf785c952afbbafb2cf25f3bb9dd3f637e2a3; YD00000980905869%3AWM_TID=I%2BxMlFVQaPRFAQBUVFaVwhzbXu%2BJGQdb; token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJjZHVfNTMyMDcwNzg0NjAiLCJleHBpcmUiOiIxNjkxMjM5Nzc0ODk3In0.rFLp1jS4okBUVpvsiL8EN-Of2ZwCTyaLBGqyxjaCYUw; Hm_lpvt_03b2668f8e8699e91d479d62bc7630f1=1688647927'
}
data={
    'linkId':39201026
}
res = requests.post('https://dig.chouti.com/link/vote',headers=header,data=data)
print(res.text)

 

 

 

 

 

 

 

 

 

 

标签:www,get,res,爬虫,7.6,print,cookie,requests
From: https://www.cnblogs.com/abc683871/p/17533349.html

相关文章

  • 7.6
    今天上午呢,有吹哨的七点起床,但是因为我还没有分配班级,而且又没有新生入学,尽管我七点就起床但是压根就没事干,在宿舍就躺了一上午.不得不说啥也不干把钱挣了的感觉就是好.接着就是中午吃饭,还行吧今天的菜是最让我有胃口的,哐哐选了六块饼,来折磨久第一次吃的饱饱的感觉幸福感......
  • 2023.7.6拷逝
    T1原题链接对于区间\([l,r]\),答案是\(max(cntr,cntl)-x\)(其中\(cntl,cntr\)分别表示区间内左括号和右括号的数量,\(x\)表示匹配的括号数量)。首先考虑\(max(cntr,cntl)\)。该柿子可以转化成\((cntl+cntr+|cntr-cntl|)/2\)。前面的\(cntl+cntr\)非常好算,就是\(\sum......
  • 2023.7.6做题笔记
    数论矩阵快速幂[NOI2012]随机数生成器这道题递推公式已经给我们了\[X_{n+1}=(aX_n+c)\bmodm\]但是如果用这个递推式如果直接使用的会超时,所以我们用矩阵快速幂来优化首先我们构造初始矩阵:\(\begin{bmatrix}X_{i-1}&c\end{bmatrix}\)根据递推式我们可以知道\[X_i=X_......
  • requests 下载大文件
    #-*-coding:utf-8-*-fromcontextlibimportclosingfromrequestsimportgeturl='https://www.test.video/aa'#但是使用with语句的时候是需要条件的,任何对象,只要正确实现了上下文管理,就可以使用with语句,实现上下文管理是通过__enter__和__exit__这两个方法实现的wi......
  • 2023.7.6
    1//2023.7.6周四2//java流程控制3//scanner45publicstaticvoidmain(String[]args)6{7//next方式不能读取有空格的字符串89//创建一个扫描对象用于接收键盘数据10Scannerscanner=newScanner(System.in);1112S......
  • 2023.7.6
    学习java中的类面向对象与面向过程面向过程:强调的是功能行为,以函数为最小单位,考虑怎么做。面向对象:强调具备了功能的对象,以类/对象为最小单位类与对象的关系类:对一类事物的描述,是抽象的、概念上的定义对象:是实际存在的该类事物的每个个体,因而也称为实例(instance)面向对象......
  • Python 爬虫实战:驾驭数据洪流,揭秘网页深处
    爬虫,这个经常被人提到的词,是对数据收集过程的一种形象化描述。特别是在Python语言中,由于其丰富的库资源和良好的易用性,使得其成为编写爬虫的绝佳选择。本文将从基础知识开始,深入浅出地讲解Python爬虫的相关知识,并分享一些独特的用法和实用技巧。本文将以实际的网站为例,深入阐述各......
  • Splash与requests结合
    Splash与requests结合render.html此接口用于获取JavaScript渲染的页面的HTML代码,接口地址就是Splash的运行地址加此接口名称,例如http://localhost:8050/render.htmlimportrequestsdeffunc1():'''render.html返回一个html结果'''url='https://www.xxxx......
  • aiohttp模块引出_aiohttp+多任务异步协程实现异步爬虫
    1.为什么要用aiohttp模块引出: 2.异步模块aiohttp对比requests基于同步的区别: 3.需要在response.text()前面添加await进行手动挂起: 4.response.text()前面一定要添加await再次运行程序告警取消: 5.异步爬虫get或post中写入的参数: ......
  • java爬虫如何使用动态代理ip
      在进行网络爬虫开发时,使用动态IP代理是保护自己的隐私、绕过访问限制和提高爬虫稳定性的重要技术。下面呢是一个简单的Java爬虫动态IP代理教程,用来帮助大家实现动态切换IP地址。1.寻找可靠的代理服务提供商 在开始之前,您需要找到一个可靠的代理服务提供商,他们将提供动态I......