首页 > 其他分享 >爬虫多线程代码调试

爬虫多线程代码调试

时间:2024-05-11 20:42:04浏览次数:18  
标签:get resp 爬虫 安雨 print import 多线程 调试 headers


第一次调试

from threading import  Thread
from fake_useragent import UserAgent
import requests
from time import sleep

for i in range(1,11):
    url = f"https://www.hupu.com/home/v1/news?pageNo={i}&pageSize=50"
    headers = {
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
    }
    resp = requests.get(url, headers=headers)
    # print(resp.json())

    for d in resp.json().get("data"):
        print(f'tid:{d.get("tid")}topic:{d.get("topicName")}content:{d.get("content")}')
        sleep(3)
    if resp.status_code == 200:
        print(f'成功获取第{i}页数据')

安雨:
老师,print(f'成功获取第{i}页数据')

安雨:
老师,这行代码怎么老是?第一页第一页

安雨:
怎么不起作用啊?

虚竹:
嵌套循环

虚竹:
外层一次,内层执行完毕,外层才会进入第二次

注意if 的位置

标签:get,resp,爬虫,安雨,print,import,多线程,调试,headers
From: https://www.cnblogs.com/tudoot/p/18187123

相关文章

  • C#实现多线程的几种方式
    思维导航前言多线程常用场景什么是进程?什么是线程?使用Thread类使用ThreadPool类使用Task类使用Parallel类拾遗补漏合集DotNetGuide技术社区交流群前言多线程是C#中一个重要的概念,多线程指的是在同一进程中同时运行多个线程的机制。多线程适用于需要提......
  • lua~IDEA中调试lua脚本
    开发工具IDE工具:jetbrainIDEA工具插件:EmmyLua本机lua项目和调试lua文件添加lua项目模板,安装完EmmyLua插件就有了添加模板项目后,在项目中添加lua类型的文件为lua项目添加一个编译调试器在调试器中,配置lua和lua项目的信息现在就可以输出hellworld了MobD......
  • Tracealyzer - RTOS可视化追踪调试软件+Virtual Eval - ADI公司ADC产品在线评估工具
    1、Qfplib-专为ARMCortex-M内核设计的浮点库Qfplib是ARMCortex-M内核的IEEE754浮点库家族。Qfplib有三个分支针对不同的内核,并以不同的优化目标编写。Qfplib-M0-tiny:针对ARMCortex-M0,高度优化的代码大小,仅单精度。Qfplib-M0-full:针对ARMCortex-M0,优化了代码大小......
  • C#实现多线程的几种方式
    前言多线程是C#中一个重要的概念,多线程指的是在同一进程中同时运行多个线程的机制。多线程适用于需要提高系统并发性、吞吐量和响应速度的场景,可以充分利用多核处理器和系统资源,提高应用程序的性能和效率。多线程常用场景CPU密集型任务.I/O密集型任务.并发请求处理.大数......
  • 爬虫
    一、爬虫数据采集1、按照采集对象分类1、全网采集2、全站采集3、具体网站的指定数据采集2、采集方案分类1、利用http协议采集-页面分析2、利用api接口采集-app数据采集3、利用目标网站的api采集-微博、github、twitter、facebook二、request库爬虫首先需要安装request依......
  • 理解 iOS 中的多线程编程
    在iOS应用开发中,多线程编程是一项关键技术,可以帮助应用实现更好的性能和响应性。本文将详细解释iOS中的多线程编程,并讨论如何在应用中正确地使用多线程以提高性能和响应性。1.什么是多线程编程?多线程编程是指在一个应用程序中同时执行多个线程(线程是进程中的执行单元),从而实......
  • python教程8-页面爬虫
    python爬虫常用requests和beautifulSoup这2个第三方模块。需要先进行手动安装。requests负责下载页面数据,beautifulSoup负责解析页面标签。关于beautifulSoup的api使用,详见api页面:https://beautifulsoup.readthedocs.io/zh-cn/v4.4.0/#find-all豆瓣评论中邮箱数据爬取案例:imp......
  • LLM生态下爬虫程序的现状与未来
    最近出现一批与LLM有关的新的爬虫框架,一类是为LLM提供内容抓取解析的,比如JinaReader和FireCrawl,可以将抓取的网页解析为markdown这样的对LLM友好的内容,例如markdown,这类本质上还是传统的爬虫解决方案。还有一类是通过LLM+agent工作流方式来构建的下一代爬虫程序,比如Skyvern、......
  • RR级别-多线程环境下-for update+插入操作包含的间隙锁+插入意向锁引发的死锁问题
    记录selectforupdatemysql死锁问题_执行select...where...forupdate是否会造成死锁(deadlock)-CSDN博客......
  • java 多线程CountDownLatch
     CountDownLatch简介CountDownLatch 是Java中的一个同步工具类,可以用来确保一组线程等待其他线程完成各自工作后再继续执行。CountDownLatch的应用场景CountDownLatch可以被广泛应用于各种多线程协作的场景,例如:主线程等待多个子线程完成后再执行下一步操作。多个子任......