首页 > 其他分享 >T网站景点评论爬虫分享

T网站景点评论爬虫分享

时间:2024-12-22 19:31:02浏览次数:3  
标签:请求 爬虫 爬取 评论 景点 参数 分享

由于学校作业需要对景点评论做一个汇总和分析,这里以T程网站为例,进行爬虫分析,爬取景点评论。开干!

景点评论页面

首先找到我们要爬取的评论页面:

评论页面

F12打开开发者工具,点击Network,Fetch/XHR:

无限断点

这里遇到个问题,页面被添加了无限断点,Fetch/XHR中没有任何数据,推荐用以下方法规避

打开F12的console,输入以下代码:

(function(){}).constructor === Function

回车

Function.prototype.constructor = function(){}

继续回车

去除断点

得到以上回复,再按F8,断点就消失了。

点击页码2,在Fetch/XHR中可看到以下get请求。

get请求

响应数据正是我们需要的评论数据,接下来就是分析请求参数了。

respons

请求参数分析

python爬虫其实就是模拟网页发起HTTP请求,获取响应数据。只要我们能够构造出正确的请求参数,就可以获取到我们想要的数据。下面我们使用curl命令转代码的在线工具,分析请求参数。

先获取该get请求的curl命令:

获取curl命令

粘贴到转换工具中,可以生成得到python代码:

生成python代码

也就是说,我们用request库,运行以上python代码就可以请求得到评论数据。

而实际上,以上有些参数不是必须的,经过尝试使用以下参数就可以获取数据了。

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36',
}

params = {
    'action': 'GetDianPingList',
    'sid': '21092',
    'page': '2',
    'pageSize': '10',
}

response = requests.get(
    'https://www.ly.com/scenery/AjaxHelper/DianPingAjax.aspx',
    params=params,
    headers=headers,
)

print(response.text)

最后,就可以从获取到的回复中去解析自己想要的数据了。如果爬取的速度太慢,还可以使用线程池的方式,提高爬取速度。但是要注意,爬取速度过快,可能会被封IP,所以爬取速度要控制好。

参考

https://www.doruo.cn/archives/网页打开开发者工具出现无限debugger的解决方式

标签:请求,爬虫,爬取,评论,景点,参数,分享
From: https://www.cnblogs.com/kalzzz-thingg/p/18622420

相关文章

  • Java中使用四叶天动态代理IP构建ip代理池,实现httpClient和Jsoup代理ip爬虫
    在本次爬虫项目中,关于应用IP代理池方面,具体完成以下功能:从指定API地址提取IP到ip池中(一次提取的IP数量可以自定义更改)每次开始爬虫前(多条爬虫线程并发执行),从ip池中获取一条可用ip和端口号(并用此ip进行代理爬虫)每条IP的有效时间为1~5分钟,如果爬虫过程中当前代理ip失效时,程......
  • node.js毕设 菜谱分享平台 论文+程序
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容一、选题背景在当今数字化时代,信息分享平台得到了广泛的发展和应用。关于美食菜谱相关的平台研究方面,现有研究主要以大型综合性美食推荐网站的整体运营、商业模式为......
  • 王者荣耀皮肤收藏家:Python爬虫桌面保存秘籍
    王者荣耀皮肤,Python爬虫带你轻松收藏在数字娱乐的世界里,王者荣耀无疑是一款深受玩家喜爱的游戏。不仅仅是因为它紧张刺激的对战模式,更因为那些设计精美、风格各异的皮肤,让每个英雄都有了独特的风采。今天,我们将一起探索如何使用Python爬虫技术,将王者荣耀的皮肤图片保存到我......
  • 简单的小说爬虫
    简单的python爬虫准备工作爬取网站77读书先选择一本书:《万相之王》复制链接:http://www.77shuku.org/chapter/34212/17138703.html代码实操importrequestsfromlxmlimportetreeimportrecookies={'clickbids':'96780','Hm_lvt_a5ca352c842077802ed8d4e......
  • 爬虫Js逆向 -数据加密板块
    分析步骤:第一步分析是否为混淆JS        判断是否为混淆JS  看调用的堆栈名称是否简洁易懂  下图为非混淆​无混淆的情况下关键字(不可以很泛)   跟栈拦截器responseJSONparse hookdecrypt(本文讲的是非混淆的数据加密跟栈网站: 资讯-精灵数......
  • Python 自动化爬虫 绕过JS逆向 爬取淘宝商品数据
    声明:此篇博客仅用于学习交流使用 任何用于非法用途的均与作者无关需要登陆pc端淘宝账号本案例所使用到的模块及工具:Drissionpage  自动化模块  pipinstaldrissionpageJsontimepandas保存数据模块  网址: 淘宝(taobao.com) 爬取步骤:一.初始化浏览器......
  • 【资料分享】常见运维监控软件资料汇总
    一、运维监控软件1、Nightingale:https://flashcat.cloud/product/nightingale/2、DeepFlow:https://www.deepflow.io/zh/3:SkyWalking:https://skywalking.apache.org/downloads/4:Zabbix:https://www.zabbix.com/download5、zbxtable:https://www.zbxtable.com/6、prometheus:http......
  • 【Unity粒子特效分享-卡通魔法特效】
    卡通魔法特效前言回顾效果图前言回顾可以点击传送门预览。传送门:【Unity粒子特效分享-宇宙星系】.传送门:【Unity粒子特效分享-魔法粒子特效超炫大招】.传送门:【Unity粒子特效分享-刀光特效】.传送门:【Unity粒子特效分享-技能特效】.传送门:【Unity粒......
  • flask毕设学习资源分享系统的设计与实现(程序+论文)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容选题背景随着信息技术的飞速发展和互联网的广泛普及,学习资源分享已成为教育领域的一大热点。现有研究主要集中在在线教育平台的设计、学习资源的管......
  • 鸿蒙HarmonyOS应用开发 | 「鸿蒙技术分享」HarmonyOS NEXT元服务卡片实战体验
    「鸿蒙技术分享」—HarmonyOSNEXT元服务卡片实战体验HarmonyOSNEXT是华为鸿蒙系统的最新版本,带来了更为流畅、高效的体验,并以元服务卡片(ServiceWidget)为核心,优化了服务分发和交互体验。本文将从开发者的角度,分享如何开发和部署元服务卡片,并结合代码实例,带你体验全新的卡片开......