Python 爬虫方法总结

时间：2023-02-16 22:22:57浏览次数：41

标签：总结提取请求 Python 爬虫 url cookie 数据

实现爬虫的套路

准备URL
- 准备start_url
  - url地址规律不明显，总数不确定
  - 通过代码提取下一页的url
    - 通过xpath提取
    - 寻找url地址，部分参数在当前的响应中（比如当前页码数和总页码数在当前的响应中）
- 准备url_list
  - 页码总数明确的时候
  - url地址规律明显
发送请求，获取响应
- 添加随机的User-Agent，反反爬虫
- 添加随机的代理IP，反反爬虫
- 在对方判断出我们是爬虫之后，应该添加更多的headers字段，包括cookie
- cookie的处理可以使用session解决
- 准备一堆能用的cookie，组成cookie池
  - 如果不登陆
    - 准备刚开始能够成功请求对方网站的cookie，即接受对方网站设置在response的cookie
    - 下一次请求的时候，使用之前的列表中的cookie来请求
  - 如果登录
    - 准备多个账号
    - 使用程序获取每个账号的cookie
    - 之后请求登录之后才能访问的网站随机的选择cookie
提取数据
- 确定数据的位置
  - 如果数据在列表当前的地址中
    - 提取的是列表页的数据
      - 直接请求列表页的url地址，不用进去详情页
    - 提取的是详情页的数据
      - 确定url
        
        发送请求
        
        提取数据
        
        返回
  - 如果数据不在当前的url地址中
    - 在其他的响应中，寻找数据的位置
      - 从network中从上往下找
        
        使用chrome中的【过滤条件，选择除了js，css，img之外的选项
        
        使用chrome的search all file，搜索数字和英文
- 数据的提取
  - xpath，从html中提取整块的数据，先分组，之后每一组再提取
  - re（正则），提取max_time，price，html中的json字符串
  - json
保存
- 保存在本地（text, json, csv）
- 保存在数据库

标签：总结,提取,请求,Python,爬虫,url,cookie,数据
From： https://www.cnblogs.com/thankcat/p/17128516.html

真实项目开发中高并发实战经验总结
1、使用异步多线程的方式记录详细的请求日志；使用异步多线程的方式记录接口请求调用量；2、不同类型的接口采用不同的限流设置，比如后台管理系统和对外接口采取不同的限制设置；......
python接口自动化13-API流量回放/锲约测试/自动化测试
PPL-Tester简介http工具集,通过代理获取到API的请求与响应信息,将这些请求信息进行流量回放/锲约测试或快速生成用例,亦可通过人工进行修改参数化提取、变量引用、断言......
一文总结当下常用的大型 transformer 效率优化方案
前言本文是一篇综述性的博客，探讨总结当下常用的大型transformer效率优化方案。本文转载自机器之心作者丨LilianWeng欢迎关注公众号CV技术指南，专注于计算机......
python语法入门之与用户交互、运算符
目录一、程序与用户交互1.什么是与用户交互用户交互就是人往计算机中input/输入数据，计算机print/输出结果2.为什么要与用户交互为了让计算机能够像人一样与用户沟通交......
Python多任务教程
一.并发和并行多任务:一定时间段内,充分利用cpu资源,同时去执行多个任务并发:快速交替的去执行多任务并行:真正同时的去执行多任务,就是同时进行二.多进......
python百分号编码、解码
在做接口自动化时，接口需要传入中文，并且是经过编码之后的中文例如需要将https://www.百度.com转换成如下，才能执行成功，那要怎么转换呢？https://www.%E7%99%BE%E5%BA%......
QT基础学习 - 总结
一、学习规划与必要知识点总结1、QT的下载与安装；1）下载：进入官网，下载QT在线下载工具(QT5.15后都必须在线下载)：2）安装参考博客： a. (86条消息)Windows10在线安装Qt5.15和......
python通过装饰器装饰OPEN，实现资源和打开路径同步
#编写装饰器defwrapper(function):def_open(*args,**kw):"""修改路径"""args_list=list(args)key='/'.join(__file__.split(......
线程池总结
一、什么是线程池，为什么需要线程池池化思想在计算机领域并不少见，在SQL连接，TCP链接中也常常见到，本质思想都是一样的，就是资源复用，线程池也差不多就是这个道理，它将多个线程资......
python 中 None 和 [ ] 和 ““ 的区别
在判断树为空的时候，返回的值应该是None还是[]产生疑问其实可以去看一下他们三个的类型type 如图，三个的类型是完全不同的，None表示该值是一个空对象，空......

Python 爬虫方法总结

相关文章

赞助商

阅读排行