首页 > 其他分享 >cookie的处理、selenium模块在爬虫中的使用、动作链、移动端数据的爬取

cookie的处理、selenium模块在爬虫中的使用、动作链、移动端数据的爬取

时间:2022-12-23 13:35:56浏览次数:31  
标签:异步 fiddler 浏览器 对象 selenium 爬虫 cookie


- cookie的处理
- 手动处理
- cookie从抓包工具中捕获封装到headers中
- 自动处理
- session对象。
- 代理
- 代理服务器
- 进行请求转发
- 代理ip:port作用到get、post方法的proxies = {'http':'ip:port'}中
- 代理池(列表)
- 验证码的识别
- 超级鹰
- 模拟登陆
- 验证码的识别
- 动态请求参数
- cookie
- 单线程+多任务异步协程
- 协程
- 如果一个函数的定义被asyic修饰后,则改函数调用后会返回一个协程对象。
- 任务对象:
- 就是对协程对象的进一步封装
- 绑定回调
- task.add_done_callback(func):func(task):task.result()
- 事件循环对象
- 事件循环对象是用来装载任务对象。该对象被启动后,则会异步的处理调用其内部装载的每一个任务对象。(将任务对象手动进行挂起操作)
- aynic,await
- 注意事项:在特殊函数内部不可以出现不支持异步模块的代码,否则会中断整个异步的效果!!!
- aiohttp支持异步请求的模块


- selenium模块在爬虫中的使用
- 概念:是一个基于浏览器自动化的模块。
- 爬虫之间的关联:
- 便捷的捕获到动态加载到的数据。(可见即可得)
- 实现模拟登陆
- 环境安装:pip install selenium
- 基本使用:
- 准备好某一款浏览器的驱动程序:http://chromedriver.storage.googleapis.com/index.html

- 实例化某一款浏览器对象
- 动作链:
- 一系列连续的动作
- 在实现标签定位时,如果发现定位的标签是存在于iframe标签之中的,则在定位时必须执行一个
固定的操作:bro.switch_to.frame('id')
- 无头浏览器的操作:无可视化界面的浏览器
- PhantomJs:停止更新
- 谷歌无头浏览器
- 让selenium规避检测


移动端数据的爬取
- fiddler是一款抓包工具:代理服务器
- 青花瓷,miteproxy

- 配置:让其可以抓取https协议的请求
- tools-》options-》https-》安装证书
- http:客户端和服务器端进行数据交互的某种形式
- https:安全的http协议
- https的加密方式采用的是证书密钥加密。

- 1.配置下fiddler的端口
- 2.将手机和fiddler所在的电脑处在同一个网段下(pc开启wifi,手机连接)
- 3.在手机中访问fiddler的ip+port:192.168.14.110:50816,在当前页面中点击对应的连接下载证书
- 4.在手机中安装且信任证书
- 5.设置手机网络的代理:开启代理==》fiddler对应pc端的ip地址和fiddler自己端口号



标签:异步,fiddler,浏览器,对象,selenium,爬虫,cookie
From: https://blog.51cto.com/u_15920572/5965393

相关文章

  • 3.selenium的基本操作.py鼠标滑动到页面底部
    fromseleniumimportwebdriverfromtimeimportsleepbro=webdriver.Chrome(executable_path='chromedriver.exe')bro.get('https://www.jd.com/')sleep(1)#进行标签定......
  • 爬虫代理IP设置
      代理网站:​​http://www.goubanjia.com/​​  浏览器访问下试试: ......
  • CEF3开发者系列之Cookies管理和共享<转>
    原帖地址:https://www.cnblogs.com/guolixiucai/p/6994559.html涉及网页登录相关的技术,Cookies肯定是忽略不了的。由于项目的需要,要做一个双核的产品。双核间切换会涉及到......
  • CEF3设置cookie
    #include"CEF3Helper.h"#include"../include/cef_app.h"#include"../include/cef_browser.h"#include"../include/cef_frame.h"#include"../include/cef_sandbox_win.......
  • Python网络爬虫——爬取和分析福建二手房房价及各项数据
    一、 选题的背景介绍随着越来越多城市的房地产市场进入存量时代,二手房市场的地位愈发重要,其走势对于房地产整体市场的影响也逐渐加强。在很多二手房市场规模占比较高的一......
  • selenium环境搭建:
    环境搭建基于python3和selenium3做自动化测试,俗话说:工欲善其事必先利其器;没有金刚钻就不揽那瓷器活,磨刀不误砍柴工,因此你必须会搭建基本的开发环境,掌握python基本的语法和一......
  • selenium
     ......
  • 关闭浏览器清除cookie_细讲前端设置cookie,储存用户登录信息
    关闭浏览器清除cookie_细讲前端设置cookie,储存用户登录信息weixin_39789370于 2020-12-0803:33:17 发布3382 收藏文章标签: 关闭浏览器清除cookie 安卓开发......
  • Selenium常见元素操作,学完就能上手
    每天进步一点点,关注我们哦,每天分享测试技术文章本文章出自【码同学软件测试】码同学公众号:自动化软件测试,领取资料可加:magetest码同学抖音号:小码哥聊软件测试 web端......
  • django、中间件、cookie、session、csrf
    目录今日内容详细今日内容详细django中间件三个了解的方法基于django中间件的功能设计cookie与session简介django操作cookiedjango操作session今日内容详细django中间件......