首页 > 其他分享 >爬取某鱼商品数据 (小白你也可以)

爬取某鱼商品数据 (小白你也可以)

时间:2024-12-18 13:29:50浏览次数:5  
标签:代码 py 点击 某鱼 爬取 小白 复制 参数 数据包

网址:闲鱼 - 闲不住?上闲鱼! (goofish.com)

本案例所需要用到的工具和库名如下:

  • Pycharm
  • requests   可以通过 pip install 库名下载
  • time
  • execjs   注意此模块的下载的完整库名为  pip install pyexecjs 

环境要求:

        执行代码要求安装node.js 插件 可以在设置 插件中 下载

分析页面

1.F12 打开开发者界面 or 右键检查

    如果是英文 可以按如下设置        

        点击右上角的三个点

2.点击网络 点Fetch/XHR  监听数据包

3.放回页面点击要抓取的数据 或者在搜索中输入关键字 点击翻页操作

将会返回这种数据包 里面包含我们想要的商品数据内容

加密参数的分析

  • 1.鼠标右击该数据包
  • 2.复制cURL 注意是bash
  • 3.打开爬虫工具库  爬虫工具库-spidertools.cn 
  • 4.按如图所示粘贴复制 
  • 5.打开开发者工具  Pycharm 新建py文件  粘贴复制的代码

通过分析测试可以发现  只能获取到当前页面数据  (改变表单的数据 页码可得)

让我们回到这个界面  分析加密参数

解密步骤

  1. Ctrl+shit+f 快捷键打开搜索 或者如下图方式打开  输入关键字:sign: 按回车

         2.找出可能的加密位置 在代码前面打上断点

        3.此时不需要刷新页面  因为刷新会导致加载过多的数据包,不好筛选 直接点击下一页

        

    发现此时的K值就是 sign: 的加密密文

        进一步分析 i 方法里面的参数

        d.token   j    h  c.data

        

分析结果:

1.d.token 就是cookie里的参数一段数据  后续可以转换成字符串类型 进行分割 获取数据

2. j 就是时间戳 毫秒级别的  到时候用time 模块生成就可以

3.h 为固定的字符串 直接赋值就可以

4. c.data 就是之前生成的表单数据 可以直接拿来用 注意JSON格式的取值

5. 确定好参数之后 我们可以进行扣JS代码 或者通过node.js 下载py第三方库(hashilib)进行解密

        鼠标放到 i函数上 点击蓝色的代码 进入方法所在的JS 文件位置

    将此代码 完整地全部复制  前面有个收起的标志 可以方便复制

        接着 在本地创建一个JS 文件 将复制的代码粘贴进去

       在py文件中实现 js 与py的交互

        

 将参数修改完成 请求成功

第一次写博客 多多包涵  会持续学习

标签:代码,py,点击,某鱼,爬取,小白,复制,参数,数据包
From: https://blog.csdn.net/2302_80243887/article/details/144502613

相关文章

  • 2025新手小白第一次准备参加护网行动,需要准备什么?
    目录第一部分:了解护网行动的背景与目的1.1护网行动的背景1.2护网行动的目的1.3护网行动的主要内容第二部分:网络安全基础知识准备2.1网络安全概念2.2网络安全的常见威胁2.3网络安全防护措施第三部分:护网行动的技术工具与方法3.1网络安全工具3.2网络......
  • 轻松上手!小白必看的Python Requests抓取<iframe>内容全攻略
    引言对于初学者来说,爬取网页内容是一项既有趣又具挑战性的任务。当你遇到网页中嵌入的<iframe>标签时,可能会感到困惑:如何用Python获取这些框架内的信息呢?别担心!本文将手把手教你使用requests库结合其他工具来实现这一目标。无论你是编程新手还是有一定经验的开发者,这篇文章都......
  • 利用Python爬取百度百科词条并生成词云图
    利用Python爬取百度百科词条并生成词云图前提声明爬虫应遵守目标网站的robots.txt协议,尊重版权和用户隐私。本代码仅供学习和研究使用,不得用于商业用途。请确保在合法合规的前提下使用本代码。本代码所爬取的内容为公开可选择的百科词条信息。目录引言环境准备爬取百度......
  • 大数据可视化分析-django基于Hadoop的天气预报数据爬取与可视化分析
    文章目录程序资料获取一、项目技术二、项目内容和项目介绍三、核心代码四、效果图五、资料获取程序资料获取......
  • 教程来了,小白一看就会,雷池 WAF 搭配阿里云 CDN
    雷池WAF(WebApplicationFirewall)是一款强大的网络安全防护产品,通过实时流量分析和精准规则拦截,有效抵御各种网络攻击。在部署雷池WAF的同时,结合阿里云CDN(内容分发网络)可以显著提升网站的性能和可用性。本文将详细介绍如何将雷池WAF和阿里云CDN配合使用,实现性能与安全的......
  • 前端算法小白日刷三题13
    今天主要学归并排序、快速排序和二分查找归并排序//归并排序functionmergeSort(arr){if(arr.length<2)returnarr;letmid=Math.floor(arr.length/2)//letleft=arr.slice(0,mid)//letright=arr.slice(mid)function......
  • Python入门:开发环境搭建(小白教程)
    ......
  • 简单上手Python爬虫实战:QQ邮箱收件箱信息爬取
        本次Python爬虫实战运用到的技术比原来多了一个selenium,如果有小伙伴不知道selenium是什么的话,这边建议你们出门左拐去搜一下,毕竟山海君也不会讲原理,怕误人子弟。这个实战本来是我们实验报告里的,但是感觉实战专栏里没有涉及到selenium这一部分,就放到这里了。(邮箱涉......
  • 蓝桥 小白入门赛24
    https://www.lanqiao.cn/oj-contest/newbie-24/1. 分配辣条签到题。#include<iostream>usingnamespacestd;intmain(){cout<<20250601/305*305;return0;}ViewCode2. 决出国特题意为求出最小的不能被前n个质数整除的数。根据埃氏筛的思想,前n个质数会将第......
  • 零基础科研小白の服务器看这个就够了
    服务器介绍我们上网的时候经常会遇到连不上服务器,那啥是服务器呢。其实就是一些特化的计算机,是远处有物理实体的设备。from挑战全网最硬核服务器基础知识什么是服务器?有高计算能力,能够通过网络提供多种服务的计算机。服务器啥模样?服务器有什么特点?计算能力稳定性......