首页 > 编程语言 >Python话题抓取

Python话题抓取

时间:2022-09-08 01:00:22浏览次数:97  
标签:www Python question 抓取 话题 topic

话题抓取

通过话题入口抓取话题下所有问题和回答

数据存储

MySQL: topic question answer

数据抓取

requwsts/xpath/re

配置

mac

解密chrome cookie文件

变更

https://www.zhihu.com/api/v4/questions/{}/answers?sort_by=default&include={}&limit=20&offset={}
现在变成了post:
https://www.zhihu.com/node/QuestionAnswerListV2
Form Data:

  • method:next

  • params:{"url_token":36535039,"pagesize":10,"offset":30}

接口返回数据格式由原来的json数据变成了html,需要进一步xpath解析.
几个topic数据已在变化前全部抓下来了,后面会放到百度云上.

抓取结果

topic记录: 30
question记录: 8868
answer记录: 3145338

不过有封禁策略,最好不好做这样的测试,毕竟是爬取,现在都有反爬机制

标签:www,Python,question,抓取,话题,topic
From: https://www.cnblogs.com/ITYueQianGu888/p/16667858.html

相关文章

  • Python中的类与对象
    类的创建classStudent native_place='吉林' def__init__(self,name,age): self.name=name#把局部变量name的值赋给实体属性self.name self.age=age#实例方法......
  • CF 和 ddns(python程序)
    cfhttps://blog.csdn.net/zhyl8157121/article/details/100551592ddnshttps://blog.zeruns.tech/archives/507.html......
  • python3 - Django3.2框架
    提示:web开发已有php、java,而python在这方面,没有优势,python的优势在于:爬虫、人工智能、大数据分析等,python在web开发这方面,没必要掌握;版本:稳定版本:3.2(py3.6-3.10)、4.2(py3.9-......
  • python自动化测试系列教程
    随着互联网产品更新迭代加快,Web开发和测试的需求也越来越大。很难想象,如果阿里的双11、京东的618,这些庞大繁杂的系统,由工程师们一个个手动测试,将会是一个怎样费时费力、......
  • VSCode SSH Python 加载很慢的解决方法
    更改服务器设置!把LanhuageServer换一下就行了......
  • pythonⅣ
    package:针对代码结构的组织,一个包里面可以拥有很多的python文件module:一个python文件就是一个模块        一个模块想引用另外一个模块里的代码,怎么实......
  • 用 Fiddler 抓取 iOS HTTPS 的流量失败的解决办法
    Fiddler证书安装后还是无法抓取移动端的HTTPS流量问题的解决办法|卓越笔记(xieboke.net)现象:同Fiddler,客户端已安装证书并信任,安卓设备的https流量可以抓包,iOS......
  • 学习python-Day56
    今日学习内容补充:JSON知识点JSON是JavaScript(JavaScriptObjectNotation)是轻量级的文本数据交换的格式,JSON解析器和JSON支持许多不同的编程语言。独立于其......
  • python学习(常用库与IO操作)
    一、模块与包1、定义:package:针对代码结构的组织,一个包里面可以拥有很多的python文件module:一个python文件就是一个模块 2、概念:    二、模块之间的引用一......
  • python 打包 tar.gz
    转载自:  https://blog.csdn.net/Vertira/article/details/123346173 图1  图2 ......