首页 > 其他分享 >爬虫 第二篇 纵观

爬虫 第二篇 纵观

时间:2024-04-25 12:22:57浏览次数:22  
标签:加密 滑块 No 检测 爬虫 获取数据 PC 第二篇 纵观

继上篇文章采集图片后,有朋友问采集就这么简单吗?

当然No No No!!!!

获取数据的渠道多种多样,根据需求,可以从小程序、PC、h5、app、官方接口等等获取数据。当然 你从别人的地方获取数据,别人哪儿能那么轻易的让你获取到数据呢!所以就出现了各种反爬!我简单总结了几种......

  1. 对UA的检测,切换UA可以避免检测;

  2. 对IP的检测,所以就会出现市面上的代理IP。免费的不用说,很low。收费的代理质量也是良莠不齐;

  3. 对请求过程中数据的加密,常见的加密方式有MD5,RSA,DES,SHA....

    (1)PC,h5 端的js加密,大多都会通过混淆映射然后加密。
    (2)APP端的加密java层的很少,基本上都是在so加密,这样破解的难度大大增高

  4. cookie检测,例如账户检测,指纹等一些用户信息或者本地浏览器的一些信息

  5. 滑块,有的人通过js直接硬刚,但是不建议这么做,为什么呢?花费时间比较多,服务端稍加变化就得从新破解。这里采用自动化的工具。滑块的方式有很多。会加上机器学习+自动化工具 轻松过掉滑块。也要避免检测自动化工具

好了!! 简单聊下反爬,还得在实际的项目上见真章!

七五七五二四八二九 欢迎QQ讨论!

标签:加密,滑块,No,检测,爬虫,获取数据,PC,第二篇,纵观
From: https://www.cnblogs.com/feimew/p/18157335

相关文章

  • 爬虫js逆向(python调用js学习)
    首先介绍pyexecjs的使用PyExecJs是一个python库,用于在Python环境中执行javaScript代码。它实际上是对Execs库的Python封装,Execls本身是一个通用的JavaScript运行环境的抽象层。使用PyExecJs,你可以在Python中执行JavaScript代码,而无需启动一个完整的JavaScript解释器......
  • 股票数据爬虫
    东方财富网-数据中心——爬虫项目0x00起因MaMa看到别人有个软件,可以直接把一个网站上的数据全部爬进一个Excel里边,但是那个人不给这个软件,所以她怂恿我写一个。。。0x01需求千股千评_数据中心_东方财富网(eastmoney.com)对于里边的00~60开头的股票,把股票代码、涨......
  • python爬虫—学习笔记-4
    课堂内容:删除原导出文件的venv,pycham打开此文夹,重新创建本地虚拟编译器。安装依赖库,打开pycham终端输入pipinstall-ryilaiku.txt,安装依赖库中的库。继续安装bs4、lxml库,命令为:pipinstallbs4和pipinstalllxml。安装好后,pycham来到spiders目录下,新建Python......
  • 爬虫爬取网站
    1.建数据库product表和product_data表CREATETABLEproduct(idINTAUTO_INCREMENTPRIMARYKEY,nameVARCHAR(255)NOTNULL,urlVARCHAR(255)NOTNULL);CREATETABLEproduct_data(idINTAUTO_INCREMENTPRIMARYKEY,product_idINT,pr......
  • 这个网络爬虫代码,拿到数据之后如何存到csv文件中去?
    大家好,我是皮皮。一、前言还是昨天的那个网络爬虫问题,大佬们,帮忙看看这个网络爬虫代码怎么修改?那个粉丝说自己不熟悉pandas,用pandas做的爬虫,虽然简洁,但是自己不习惯,想要在他自己的代码基础上进行修改,获取数据的代码已经写好了,就差存储到csv中去了。他的原始代码如下:importreq......
  • 团队开发日记第二篇
    今天进行了站立会议,主要讨论了整个项目的工作分配和关键技术点......
  • Python-Web-爬虫秘籍(三)
    PythonWeb爬虫秘籍(三)原文:zh.annas-archive.org/md5/6ba628f13aabe820a089a16eaa190089译者:飞龙协议:CCBY-NC-SA4.0第七章:执行词形还原如何做一些过程,比如我们将使用的过程,需要额外下载它们用于执行各种分析的各种数据集。可以通过执行以下操作来下载它们:安装NLTK......
  • bs4爬虫解析
    记录使用bs4解析网页的基本方法,,完整使用文档可见bs4使用文档安装bs4pipinstallbs4创建beautifulSoup对象frombs4importBeautifulSoupsoup=BeautifulSoup(open("index.html"))soup=BeautifulSoup("<html>data</html>")soup=BeautiFulSouo(res)可以传入字符串,......
  • 爬虫-xpath解析
    你好一、xpath解析原理实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获使用lxml模块1.1实例化一个etree对象将本地的html文档中的源码数据加载到etree对象中:etree.parse(fil......
  • python爬虫使用selenium
    由于selenium更各版本用法不一,本文使用的环境是selenium4.13,python3.11.0,不同环境可能失效忽略这一行安装pipinstallselenium安装驱动chrome浏览器谷歌驱动官网下载地址如果你的谷歌是最新版(在设置-关于Chrome查看版本),直接前往最新版下载地址你还可以访问这个json文件......