爬虫——同步与异步加载

时间：2024-10-03 10:49:18浏览次数：9

标签：异步 title 爬虫 json jsonpath print data 加载

一、同步加载

同步模式--阻塞模式（就是会阻止你浏览器的一个后续加载）停止了后续的解析因此停止了后续的文件加载（图像）

比如hifini音乐网站

二、异步加载

异步加载--xhr(重点)

比如腾讯新闻，腾讯招聘等

三、同步加载和异步加载的区分

1.网页数据返回的方式

（数据返回给你客户端的时候返回的方式有哪些）

---直接返回的网页文本

---ajax加载（通过异步加载回来的数据一般都是json数据）

----javascript渲染

2.区别

观察你在翻页的时候刷新按钮有没有动

动了 ----- 同步--找数据包优先找all

未动 --异步--找数据包优先找xhr

注意：我们去抓取网站大致分为两种类别：
---网页文本（html）
-----通过接口返回的数据（json）

爬取腾讯新闻——异步加载

注意：优先找带有list的数据包——offset、limit——headers

点击之后，可以在预览部分查看会否有需要的数据。如果有就说明数据包没有找错。

当你不断往下滑刷新页面后，这时就会出现上面2中，类似的url地址，只不过他的offset会发生变化

示例代码：

import requests
from jsonpath import jsonpath
#发请求
url = "https://i.news.qq.com/trpc.qqnews_web.kv_srv.kv_srv_http_proxy/list"
#ctrl+r
data = {
    'sub_srv_id':'24hours',
    'srv_id':'pc',
    'offset':'40',
    'limit':'20',
    'strategy':'1',
    'ext':'{"pool":["top","hot"],"is_filter":7,"check_type":true}',
}
def get_data():
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36'
    }
    r = requests.get(url,headers=headers,params=data)
    if r.status_code==200:
        # d =r.text
        # print(d)
        json_data = r.json()
        # print(json_data)
        return json_data
#解析
def parse_data(data):#形参站位 模拟的就是json_data
    #第一个参数是你要解析的对象 第二个参数是解析语法 $表示根节点 ..表示跳过中间任意层级 直接找到目标层级,.表示一个层级
    title = jsonpath(data,'$..title')#标题
    url = jsonpath(data,'$..url')
    # print(title)
    # print(url)
    for titles,urls in zip(title,url):
        print(titles)
        print(urls)
        print('========================')


if __name__ == '__main__':
    h = get_data()
    parse_data(h)

zip可将多个可迭代对象打包成元组，返回有这些元组组成的列表

四、jsonpath用法

示例代码：

from jsonpath import jsonpath
data = { "store": {
    "book": [
      { "category": "reference",
        "author": "Nigel Rees",
        "title": "Sayings of the Century",
        "price": 8.95
      },
      { "category": "fiction",
        "author": "Evelyn Waugh",
        "title": "Sword of Honour",
        "price": 12.99
      },
      { "category": "fiction",
        "author": "Herman Melville",
        "title": "Moby Dick",
        "isbn": "0-553-21311-3",
        "price": 8.99
      },
      { "category": "fiction",
        "author": "J. R. R. Tolkien",
        "title": "The Lord of the Rings",
        "isbn": "0-395-19395-8",
        "price": 22.99
      }
    ],
    "bicycle": {
      "color": "red",
      "price": 19.95
    }
  }
}
authors=jsonpath(data,'$..author')
titles=jsonpath(data,'$.store.book[*].title')
items=jsonpath(data,'$.store.*')
print(authors)
print(titles)
print(items)

运行结果：

标签：异步,title,爬虫,json,jsonpath,print,data,加载
From： https://blog.csdn.net/qq_53256193/article/details/142662732

lazy_loader python 子包以及函数懒加载框架
lazy_loaderpython子包以及函数懒加载框架,内部处理上是基于了importlib.import_module进行动态加载包含的特性可以确保子模块对于用户的可见行，不引起而外的开销允许外部库在使用的时候被加载，提升导入时间说明此包在kedro的datasets模块中使用比较多，基本上每个datase......
使用微服务Spring Cloud集成Kafka实现异步通信（消费者）
1、本文架构本文目标是使用微服务SpringCloud集成Kafka实现异步通信。其中KafkaServer部署在Ubuntu虚拟机上，微服务部署在Windows11系统上，KafkaProducer微服务和KafkaConsumer微服务分别注册到Eureka注册中心。KafkaProducer和KafkaConsumer之间通过KafkaServer实现异......
【python爬虫可以获取到谷歌影像吗？】如何有效下载谷歌影像？
【python爬虫可以获取到谷歌影像吗？】如何有效下载谷歌影像？【python爬虫可以获取到谷歌影像吗？】如何有效下载谷歌影像？文章目录【python爬虫可以获取到谷歌影像吗？】如何有效下载谷歌影像？前言1.使用GoogleEarthEngine来获取影像数据Step1：注册GoogleEarthEngineS......
设计模式：异步处理文件常用设计模式
引言在java中，基于系统系统性能考虑，大文件导入和导出大多采用异步模式。那么如何设计既不会造成代码冗余也有利于后续更好的扩展呢？以下将介绍三种不同的设计方案：正文1.工厂模式+模板方法模式1.1.设计思路使用工厂模式创建不同的文件导入处理器（如CSV导入、Excel导......
django基于Hadoop的气象数据的研究与应用(源码+vue+可视化大屏展示+爬虫分析+讲解等)
收藏关注不迷路！！......
pbootcms模板后台编辑器无法上传图片提示：后端配置项没有正常加载，上传插件不能正常使用
当你在使用PbootCMS后台时，遇到Ueditor编辑器中的单图片上传按钮无反应，多图片上传提示“后台配置项返回格式出错，上传功能将不能正常使用！”的问题时，可以通过以下步骤来解决。问题分析该问题通常是由于时间区域配置不正确导致的。具体来说，Linux系统对时间区域的大小写非常敏感......
通过 DISM 命令注入驱动程序到 WIM 镜像的步骤如下：使用 $OEM$ 文件夹是一个简便的方式
通过DISM命令注入驱动程序到WIM镜像的步骤如下：1.挂载WIM镜像使用以下命令挂载WIM镜像：bashCopyCodeDism/Mount-Wim/WimFile:install.wim/Index:2/MountDir:mount/WimFile: 指定要挂载的WIM文件路径。/Index: 指定要挂载的映像索引（例如，2）。/MountDir: 指......
Python - [05] 爬虫
题记部分 001||爬虫的工作原理（1）获取数据。爬虫程序会根据提供的网址，向服务器发起请求，然后返回数据。（2）解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。（3）提取数据。爬虫程序再从中提取出我们需要的数据。（4）储存数据。爬虫程序把这些有用的数据保存起来，......
无限超人：RPA与爬虫的定义、功能和区别
RPA（RoboticProcessAutomation）被设计为一种模仿人类用户操作的自动化技术，用于执行企业中的重复性任务，如数据输入、文件管理和系统集成等，以此提高工作效率。另一方面，网络爬虫（WebCrawler）是一种自动检索互联网信息的程序，它通过抓取网页数据并进行保存或分析。尽管两者都具有自动......
django基于ECharts的毕业生招聘信息可视化分析系统(源码+vue+可视化大屏展示+爬虫分析
收藏关注不迷路！！......