这是一个很有趣的爬虫代码，可以爬取指定地区的91论坛帖子，你会得到一个yp信息集锦 So cool ooOOOO

时间：2023-09-25 15:27:10浏览次数：40

标签：function 爬取 arr console ooOOOO result 集锦 page

var Nightmare = require('nightmare');

// https://duckduckgo.com

function open(page) {
    var nightmare = Nightmare({ show: false });
    // console.log(`开始爬取=https://t0904.91zuixindizhi.com/forumdisplay.php?fid=19&page=${page}`);
    nightmare
        .goto(`https://t0904.91zuixindizhi.com/forumdisplay.php?fid=19&page=${page}`)
        .wait('.datatable .subject,.new')
        .evaluate(function () {
            let list = document.querySelectorAll('.datatable .subject,.new')
            let ya = []
            list.forEach(e => {
                let arr = e.querySelectorAll('a')
                if (arr.length > 0)
                    if (arr[0].innerText.includes("北京")) // 在这里更改检索关键词
                        ya.push({ href: arr[0].href, text: arr[0].innerText })

            })
            return ya
        })
        .end()
        .then(function (result) {
            result.forEach(e => e['page'] = page)
            if (result.length > 0)
                console.log(result);
            else
                console.log(`第${page}页没有所需数据`);
        })
        .catch(function (error) {
            console.error('Search failed:', error);
        });
}

function sleep(time) {
    return new Promise((resolve) => setTimeout(resolve, time));
}

async function run() {
    let page = 462
    console.time('爬取耗时：');
    while (page < 1000) {
        open(page)
        await sleep(5000);
        page++
    }
    console.timeEnd('爬取耗时：');
}

run()

标签：function,爬取,arr,console,ooOOOO,result,集锦,page
From： https://www.cnblogs.com/lambertlt/p/17727976.html

【Python爬虫】批量爬取豆瓣电影排行Top250
今天给大家分享下我刚开始接触Python时学习的爬虫程序，代码部分很简单，不过当时刚开始学习时还是走了不少弯路的。这个爬虫程序应该是很多书里面的入门练手程序，主要就是去豆瓣爬取电影评分排行前250。本篇文章只做学习交流使用，不涉及任何商业用途......
CodeArts Check代码检查服务用户声音反馈集锦（5）
作者：gentle_zhou原文链接：<https://bbs.huaweicloud.com/blogs/401608>CodeArtsCheck（原CodeCheck），是自主研发的代码检查服务。建立在华为30年自动化源代码静态检查技术积累与企业级应用经验的沉淀之上，为用户提供代码风格、通用质量与网络安全风险等丰富的检查能力，提供全面质量报告......
指定请求头部爬取知乎网
1、获取知乎网的url2、检查后台--获取header信息3、获取json数据4、输出数据......
Pandas一键爬取解析代理IP与代理IP池的维护
一、前言代理IP是现在爬虫获取数据的必备工具之一，它可以帮助我们规避一些反爬措施，比如封IP、验证码等。同时，我们也可以利用代理IP来实现一些多线程或分布式爬虫的功能，提高爬虫效率。但是，代理IP的获取和验证是一项比较费时费力的工作，所以我们需要一些工具来帮助我们自动化获取和验证......
python网络爬虫——爬取东方财富网股票数据并分析
一、选题的背景：股票数据分析是一个非常重要的领域，它可以帮助投资者做出更明智的投资决策。选取这个选题的背景主要有以下几点：1.市场波动：股票市场不断波动，价格的涨跌对投资者来说是一个重要的影响因素。通过对股票数据进行分析，可以揭示市场的走势和各种趋势，帮助投资者更好地......
20230914-python爬取数据写入到excel
python爬取数据写入到excel1。查看是否安装了相应的插件 piplist2。查看是否安装了 pandas （安装命令在cmd中安装，pipinstallpandas）3。查看是否安装 openpyxl pipinstallopenpyxl ####写入excelimportpandasaspddf=pd.DataFra......
爬虫爬取网页图片《滕王阁序》文徵明行草
python爬取网页图片importurllib.request#python自带的爬操作url的库importre#正则表达式defgetImage(url):headers={'User-Agent':'Mozilla/5.0(linux;android6.0;Nexus5Build/MRA58N)\AppleWebKit/537.36(KHTML,likeGecko)Chrome/56.0.......
数据爬取与SOCKS5的完美结合
数据爬取与SOCKS5的完美结合大家好！在进行数据爬取的过程中，我们经常需要应对反爬机制和IP限制等问题。今天，我将与大家分享一种强大的工具：数据爬取与SOCKS5代理的完美结合，帮助我们更高效地获取所需数据。1.什么是SOCKS5代理？SOCKS5是一种网络代理协议，能够在客户端和服务器之间传输数......
Python爬虫-IP隐藏技术与代理爬取
在进行爬虫程序开发和运行时，常常会遇到目标网站的反爬虫机制，最常见的就是IP封禁，这时需要使用IP隐藏技术和代理爬取。一、IP隐藏技术IP隐藏技术，即伪装IP地址，使得爬虫请求的IP地址不被目标网站识别为爬虫。通过IP隐藏技术，可以有效地绕过目标网站对于特定IP地址的限制。随机User-Agent......
用python爬取天气
之前做过这么个小网站，能够爬取天气，然后感觉没什么用，有上网站的时间用手机都看完了，然后就寻思能不能发到自己微信或者qq或者邮箱里先写下怎么把数据提出来 importrequestsimportjsonurl=你自己的网址result=requests.get(url)#print(result.text)data=json.loads......

这是一个很有趣的爬虫代码，可以爬取指定地区的91论坛帖子，你会得到一个yp信息集锦 So cool ooOOOO

相关文章

赞助商

阅读排行