首页 > 其他分享 >requests的基础使用

requests的基础使用

时间:2023-07-10 21:58:02浏览次数:33  
标签:www http get res 基础 aa7a 使用 requests

爬虫介绍

#  爬虫:又称网络蜘蛛,spider,一堆程序,从互联网中抓取数据----》数据清洗---->入库


# 爬虫需要掌握的知识
	-抓取数据:发送网络请求(http),获得响应(http响应,响应头,响应体---》真正重要的数据在响应体中)
    	-python模块:requests,selenium
        
    -清洗数据:解析拿回来的数据---》json,xml,html,二进制
    	-json解析,xml解析。。。
        -python模块:re,json,beautifulsoup4(bs4),lxml,selenium
        
    -入库:存文件,存mysql,redis,mongodb
    	-python模块:file,pymsql,redis-py,pymongo
# 反扒
	-频率限制
    -封ip(代理池),封账号(一堆小号:cookie池)
    -请求头中带加密信息,referer,user-agent。。。
    -响应回来的数据是加密
    -验证码反扒(破解验证码---》第三方平台)
    -js加密---》压缩---》加密方法其实在前端能看到---》看上去很晦涩
    -手机设备:唯一id号

    
# 搜索引擎都是大爬虫
	-百度输入框搜索---》美女---》去百度的数据库搜索----》显示在页面上
    -百度一刻不停的在互联网中爬网页,爬完存到它的数据库
    	-seo优化:免费排中,排靠前
        -sem优化:搜出来的靠前的,带广告的是花钱的,买断关键词
            
 #可见即可爬

requests模块介绍和快速使用

# requests是模拟发送http请求的模块
	-不仅仅可以做爬虫
    -后端服务,请求别人服务
   
# pip3 install requests

# 使用requests发送get请求
import requests
# res 响应对象,http响应,python包装成了对象,响应头,响应头。。。在res中都会有
res=requests.get('https://www.cnblogs.com/liuqingzheng/p/16005866.html')
print(res.text) # 响应体转成字符串

get请求携带参数

# res = requests.get('http://www.aa7a.cn/?name=xxx&age=18')
# res = requests.get('http://www.aa7a.cn/',params={'name':'xxx',"age":18})
res = requests.get('https://www.baidu.com/s?wd=%E7%BE%8E%E5%A5%B3')
print(res.text)  # 响应体转成字符串
print(res.url)  # http://www.aa7a.cn/?name=xxx&age=18

url的编码和解码

from urllib.parse import quote,unquote
res = unquote('%E7%BE%8E%E5%A5%B3')
print(res)

携带请求头

# 发送get请求,有的网站,拿不到数据,模拟的不像,请求头的数据没有携带
# 请求头:1 User-Agent:客户端类型  2 referer :上一个页面的地址  3 cookie
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}
res = requests.get('http://www.aa7a.cn/',headers=header)
print(res.text)

发送post请求,携带数据

header = {
    'Referer': 'http://www.aa7a.cn/user.php?&ref=http%3A%2F%2Fwww.aa7a.cn%2Fuser.php%3Fact%3Dlogout',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}

data = {
    'username': '[email protected]',
    'password': '111111',
    'captcha': 'xxxx',
    'remember': 1,
    'ref': ' http://www.aa7a.cn/',
    'act': 'act_login'
}
# data,json请求体的数据
# 编码方式是 urlencoded
# res = requests.post('http://www.aa7a.cn/user.php', data=data, headers=header)
# # 编码是json格式
# # res = requests.post('http://www.aa7a.cn/user.php',json=data,headers=header)
# print(res.text)

携带cookie两种方式

# 方式一:携带在请求头中
# header = {
#     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36',
#     'Cookie':'deviceId=web.eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiI2Mzk1OTEzMS1lMzE2LTRlNmItYWFlNi1mNDM0ZTEzZDQ4MzkiLCJleHBpcmUiOiIxNjkxMjIxODQ3NjAwIn0._tWo9ROyqRWXNCJA-ogCZ8MRBl4S-7tbB2wr6wLwci4; Hm_lvt_03b2668f8e8699e91d479d62bc7630f1=1688629848; __snaker__id=GmosTb6BqFJK2NsT; gdxidpyhxdE=bI5WeJdvSvxuozJLw6Sodah8g4wSXI%5CAGHA1Cn%2B573j5p5u3tTcpHw%2FKVWuoso76x2V1fxENE7jUBh%2FBZhMLRoXQdnvjcwO93W0A0QguQWpzQOGz6YiWdmXcJAbzpyI0flcPKu0o%2FajAM6spZ5gpHe2toaoZwaLt%5Cwm33oG19TcPouGk%3A1688630760372; YD00000980905869%3AWM_NI=hz7CdBywrI1ITXj%2BeDEs8Mphu1liSwPzyqW6zkG91wDDx50X1EV6qH%2FhEETlFaDIAXf4Rv2WI5bV6RCLGvy0zPMK7LULYiuRGg0HqFJuv9fgjQXVgpEy5gfhV02dVnM6Mlo%3D; YD00000980905869%3AWM_NIKE=9ca17ae2e6ffcda170e2e6ee91cb47aa9e8c94e245e9968ab2c85e838f9bb1c53cf4b397a4e173bba7b898ca2af0fea7c3b92aaca6f9a4e74abba9beaab4439888a6cce85087adf8aef364b7efa48ad27d94a6b792d63ebab589dab47d889cb8d6b354f39b9ad7f444edb88ba6d76886bf8caac454a6ec9e97b15d8bebaeb7b55a81948997fc3cba9083acb6489794978af85a85b900a9f44e8aabbadae56daa8f98b7e67c87a7fb88e56496f0fe85d5668fea838dee37e2a3; YD00000980905869%3AWM_TID=6PefENQWNmhBAAVQQUPQlgzdWOzmnwwf; token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJjdHVfNjg4NjI5OTM5MjkiLCJleHBpcmUiOiIxNjkxMjIxOTM5MzgxIn0.15Hu6OOKG9oMqsjiD_Wla0Wv15ibXNSM62cvdlXUDYg; Hm_lpvt_03b2668f8e8699e91d479d62bc7630f1=1688629965',
# }
# data = {
# 'linkId': '39196722'
# }
# res = requests.post('https://dig.chouti.com/link/vote', headers=header,data=data)
# print(res.text)

# 方式二:
# res1 = requests.get('http://www.aa7a.cn/',cookies=cookie)

标签:www,http,get,res,基础,aa7a,使用,requests
From: https://www.cnblogs.com/XxMa/p/17542437.html

相关文章

  • 2023-07-10 量学基础 黄金阶梯(攻防节奏)
    1.攻的节奏,每一级上涨阶梯必须是有王牌柱构成。不必非得是黄金柱,也可以是将军柱(1)也就必须是有4根k线构成一个阶梯(2)理解合力和接力的关系2.防的节奏(1)单阴不算阴(2)双阴才断节奏,但是双阴和基柱如果只有3天,则后面再出阳线也算一波(3)打破最后一个攻的节奏就为撤 ......
  • 微信小程序(三)列表渲染&数据绑定&事件绑定&路由跳转&生命周期&本地存储&模板使用
    这里新建个页面log,然后用这个页面进行测试。同时修改app.json,将log页面设置为首页"pages":["pages/index/index","pages/log/log"],"entryPagePath":"pages/log/log",0.数据绑定0.简单的绑定wxml用{{val}}取变量<!--pages/log/lo......
  • 爬虫学习02 requests高级用法
    1requests高级用法1.0自动携带cookie的session对象#session对象----》已经模拟登录上了一些网站---》单独把cookie取出来-res.cookies是cookiejar对象,里面有get_dict()方法转换成字典-转成字典res.cookies.get_dict()#使用session发送请求,cookie自动携带sess......
  • 7.10 requests的高级使用
    1. 自动携带cookie和session对象header={'Referer':'http://www.aa7a.cn/user.php?&ref=http%3A%2F%2Fwww.aa7a.cn%2F','User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/114......
  • cpplint使用
    cpplint可用于检查代码是否遵守googlec++代码规范。我的理解是检查你使用的是不是正确的C++。安装:python3-mpipinstallcpplint 与之对应,代码需要格式化为满足googlec++规范的格式,比如使用clang-format--style=google-i$file 会添加合适的空格和换行。 ......
  • Anaconda使用conda安装opencv的正确命令
    很多教程是使用pip安装opencv的,执行的命令是:pipinstallopencv-python 但是我们的环境是Anaconda,使用conda安装opencv的命令是:condainstall-cconda-forgeopencv 参考资料:https://anaconda.org/conda-forge/opencvTRANSLATEwithxEnglishArabic......
  • 使用递归函数来实现输入正整数,将正整数分解鸡(质因)数
    介绍一下递归函数:当我们定义一个函数时,如果函数内部调用了自身,那么这个函数就称为递归函数。递归函数是一种解决问题的方法,它将大问题分解为相同或类似的小问题,并通过逐步解决这些小问题来解决整个问题。使用递归函数的核心思想是将一个问题拆解为更简单的子问题,并且解决子问题的方......
  • C#开发ESP32E(3)Wifi配置使用
    1.安装Wifi配置库(nanoFramework.System.Device.Wifi)1.1nanoFramework.System.Device.Wifi介绍API预览--地址:https://docs.nanoframework.net/api/System.Device.Wifi.html该库可配置ESP32使用Wifi模块进行通信与Wifi建立连接有如下步骤:创建Wifi适配器扫描Wifi列表......
  • 电脑使用管理
    1、电脑使用管理2、桌面管理:干净整洁、文件夹管理、不常用软件隐藏3、磁盘管理:cclean、分盘cd4、常用软件:软件安装到d盘Install文件夹、c盘平时不要动警告:必须卸载360、鲁大师图像:quicker(工具箱)、snispaste(截屏)、ps、cdr视频:splayer(播放器)、剪应(视频)、An(动画)数据:origin(数据......
  • 快使用双截棍 | 低码之连接器 元服务开发的奇门武器
    ​AppGalleryConnect(以下简称AGC)低代码服务是一个基于Serverless的低代码开发平台,可通过拖拽式开发,可视化配置构建元服务。打通HarmonyOS云侧与端侧能力,轻松实现HMSCore和AGCServerless能力的调用,宛若奇门武器双截棍一般,熟练使用“威力无穷”。此武器通过连接元服务生态、HMSC......