首页 > 其他分享 >这是一个很有趣的爬虫代码,可以爬取指定地区的91论坛帖子,你会得到一个yp信息集锦 So cool ooOOOO

这是一个很有趣的爬虫代码,可以爬取指定地区的91论坛帖子,你会得到一个yp信息集锦 So cool ooOOOO

时间:2023-09-25 15:27:10浏览次数:40  
标签:function 爬取 arr console ooOOOO result 集锦 page

var Nightmare = require('nightmare');

// https://duckduckgo.com

function open(page) {
    var nightmare = Nightmare({ show: false });
    // console.log(`开始爬取=https://t0904.91zuixindizhi.com/forumdisplay.php?fid=19&page=${page}`);
    nightmare
        .goto(`https://t0904.91zuixindizhi.com/forumdisplay.php?fid=19&page=${page}`)
        .wait('.datatable .subject,.new')
        .evaluate(function () {
            let list = document.querySelectorAll('.datatable .subject,.new')
            let ya = []
            list.forEach(e => {
                let arr = e.querySelectorAll('a')
                if (arr.length > 0)
                    if (arr[0].innerText.includes("北京")) // 在这里更改检索关键词
                        ya.push({ href: arr[0].href, text: arr[0].innerText })

            })
            return ya
        })
        .end()
        .then(function (result) {
            result.forEach(e => e['page'] = page)
            if (result.length > 0)
                console.log(result);
            else
                console.log(`第${page}页没有所需数据`);
        })
        .catch(function (error) {
            console.error('Search failed:', error);
        });
}

function sleep(time) {
    return new Promise((resolve) => setTimeout(resolve, time));
}

async function run() {
    let page = 462
    console.time('爬取耗时:');
    while (page < 1000) {
        open(page)
        await sleep(5000);
        page++
    }
    console.timeEnd('爬取耗时:');
}

run()

标签:function,爬取,arr,console,ooOOOO,result,集锦,page
From: https://www.cnblogs.com/lambertlt/p/17727976.html

相关文章

  • 【Python爬虫】批量爬取豆瓣电影排行Top250
    ​    今天给大家分享下我刚开始接触Python时学习的爬虫程序,代码部分很简单,不过当时刚开始学习时还是走了不少弯路的。这个爬虫程序应该是很多书里面的入门练手程序,主要就是去豆瓣爬取电影评分排行前250。        本篇文章只做学习交流使用,不涉及任何商业用途......
  • CodeArts Check代码检查服务用户声音反馈集锦(5)
    作者:gentle_zhou原文链接:<https://bbs.huaweicloud.com/blogs/401608>CodeArtsCheck(原CodeCheck),是自主研发的代码检查服务。建立在华为30年自动化源代码静态检查技术积累与企业级应用经验的沉淀之上,为用户提供代码风格、通用质量与网络安全风险等丰富的检查能力,提供全面质量报告......
  • 指定请求头部爬取知乎网
    1、获取知乎网的url2、检查后台--获取header信息3、获取json数据4、输出数据......
  • Pandas一键爬取解析代理IP与代理IP池的维护
    一、前言代理IP是现在爬虫获取数据的必备工具之一,它可以帮助我们规避一些反爬措施,比如封IP、验证码等。同时,我们也可以利用代理IP来实现一些多线程或分布式爬虫的功能,提高爬虫效率。但是,代理IP的获取和验证是一项比较费时费力的工作,所以我们需要一些工具来帮助我们自动化获取和验证......
  • python网络爬虫——爬取东方财富网股票数据并分析
     一、选题的背景:股票数据分析是一个非常重要的领域,它可以帮助投资者做出更明智的投资决策。选取这个选题的背景主要有以下几点:1.市场波动:股票市场不断波动,价格的涨跌对投资者来说是一个重要的影响因素。通过对股票数据进行分析,可以揭示市场的走势和各种趋势,帮助投资者更好地......
  • 20230914-python爬取数据写入到excel
    python爬取数据写入到excel1。查看是否安装了相应的插件 piplist2。查看是否安装了  pandas     (安装命令在cmd中安装,pipinstallpandas)3。查看是否安装 openpyxl      pipinstallopenpyxl ####写入excelimportpandasaspddf=pd.DataFra......
  • 爬虫爬取网页图片《滕王阁序》文徵明 行草
    python爬取网页图片importurllib.request#python自带的爬操作url的库importre#正则表达式defgetImage(url):headers={'User-Agent':'Mozilla/5.0(linux;android6.0;Nexus5Build/MRA58N)\AppleWebKit/537.36(KHTML,likeGecko)Chrome/56.0.......
  • 数据爬取与SOCKS5的完美结合​
    数据爬取与SOCKS5的完美结合大家好!在进行数据爬取的过程中,我们经常需要应对反爬机制和IP限制等问题。今天,我将与大家分享一种强大的工具:数据爬取与SOCKS5代理的完美结合,帮助我们更高效地获取所需数据。1.什么是SOCKS5代理?SOCKS5是一种网络代理协议,能够在客户端和服务器之间传输数......
  • Python爬虫-IP隐藏技术与代理爬取
    在进行爬虫程序开发和运行时,常常会遇到目标网站的反爬虫机制,最常见的就是IP封禁,这时需要使用IP隐藏技术和代理爬取。一、IP隐藏技术IP隐藏技术,即伪装IP地址,使得爬虫请求的IP地址不被目标网站识别为爬虫。通过IP隐藏技术,可以有效地绕过目标网站对于特定IP地址的限制。随机User-Agent......
  • 用python爬取天气
    之前做过这么个小网站,能够爬取天气,然后感觉没什么用,有上网站的时间用手机都看完了,然后就寻思能不能发到自己微信或者qq或者邮箱里先写下怎么把数据提出来 importrequestsimportjsonurl=你自己的网址result=requests.get(url)#print(result.text)data=json.loads......