爬虫多线程代码调试

时间：2024-05-11 20:42:04浏览次数：18

标签：get resp 爬虫安雨 print import 多线程调试 headers


第一次调试

from threading import  Thread
from fake_useragent import UserAgent
import requests
from time import sleep

for i in range(1,11):
    url = f"https://www.hupu.com/home/v1/news?pageNo={i}&pageSize=50"
    headers = {
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
    }
    resp = requests.get(url, headers=headers)
    # print(resp.json())

    for d in resp.json().get("data"):
        print(f'tid:{d.get("tid")}topic:{d.get("topicName")}content:{d.get("content")}')
        sleep(3)
    if resp.status_code == 200:
        print(f'成功获取第{i}页数据')

安雨:
老师，print(f'成功获取第{i}页数据')

安雨:
老师，这行代码怎么老是？第一页第一页

安雨:
怎么不起作用啊？

虚竹:
嵌套循环

虚竹:
外层一次，内层执行完毕，外层才会进入第二次

注意if 的位置

标签：get,resp,爬虫,安雨,print,import,多线程,调试,headers
From： https://www.cnblogs.com/tudoot/p/18187123

C#实现多线程的几种方式
思维导航前言多线程常用场景什么是进程？什么是线程？使用Thread类使用ThreadPool类使用Task类使用Parallel类拾遗补漏合集DotNetGuide技术社区交流群前言多线程是C#中一个重要的概念，多线程指的是在同一进程中同时运行多个线程的机制。多线程适用于需要提......
lua~IDEA中调试lua脚本
开发工具IDE工具：jetbrainIDEA工具插件：EmmyLua本机lua项目和调试lua文件添加lua项目模板，安装完EmmyLua插件就有了添加模板项目后，在项目中添加lua类型的文件为lua项目添加一个编译调试器在调试器中，配置lua和lua项目的信息现在就可以输出hellworld了MobD......
Tracealyzer - RTOS可视化追踪调试软件+Virtual Eval - ADI公司ADC产品在线评估工具
1、Qfplib-专为ARMCortex-M内核设计的浮点库Qfplib是ARMCortex-M内核的IEEE754浮点库家族。Qfplib有三个分支针对不同的内核，并以不同的优化目标编写。Qfplib-M0-tiny：针对ARMCortex-M0，高度优化的代码大小，仅单精度。Qfplib-M0-full：针对ARMCortex-M0，优化了代码大小......
C#实现多线程的几种方式
前言多线程是C#中一个重要的概念，多线程指的是在同一进程中同时运行多个线程的机制。多线程适用于需要提高系统并发性、吞吐量和响应速度的场景，可以充分利用多核处理器和系统资源，提高应用程序的性能和效率。多线程常用场景CPU密集型任务.I/O密集型任务.并发请求处理.大数......
爬虫
一、爬虫数据采集1、按照采集对象分类1、全网采集2、全站采集3、具体网站的指定数据采集2、采集方案分类1、利用http协议采集-页面分析2、利用api接口采集-app数据采集3、利用目标网站的api采集-微博、github、twitter、facebook二、request库爬虫首先需要安装request依......
理解 iOS 中的多线程编程
在iOS应用开发中，多线程编程是一项关键技术，可以帮助应用实现更好的性能和响应性。本文将详细解释iOS中的多线程编程，并讨论如何在应用中正确地使用多线程以提高性能和响应性。1.什么是多线程编程？多线程编程是指在一个应用程序中同时执行多个线程（线程是进程中的执行单元），从而实......
python教程8-页面爬虫
python爬虫常用requests和beautifulSoup这2个第三方模块。需要先进行手动安装。requests负责下载页面数据，beautifulSoup负责解析页面标签。关于beautifulSoup的api使用，详见api页面：https://beautifulsoup.readthedocs.io/zh-cn/v4.4.0/#find-all豆瓣评论中邮箱数据爬取案例：imp......
LLM生态下爬虫程序的现状与未来
最近出现一批与LLM有关的新的爬虫框架，一类是为LLM提供内容抓取解析的，比如JinaReader和FireCrawl，可以将抓取的网页解析为markdown这样的对LLM友好的内容，例如markdown，这类本质上还是传统的爬虫解决方案。还有一类是通过LLM+agent工作流方式来构建的下一代爬虫程序，比如Skyvern、......
RR级别-多线程环境下-for update+插入操作包含的间隙锁+插入意向锁引发的死锁问题
记录selectforupdatemysql死锁问题_执行select...where...forupdate是否会造成死锁(deadlock)-CSDN博客......
java 多线程CountDownLatch
CountDownLatch简介CountDownLatch 是Java中的一个同步工具类，可以用来确保一组线程等待其他线程完成各自工作后再继续执行。CountDownLatch的应用场景CountDownLatch可以被广泛应用于各种多线程协作的场景，例如：主线程等待多个子线程完成后再执行下一步操作。多个子任......

爬虫多线程代码调试

相关文章

赞助商

阅读排行