话题抓取
通过话题入口抓取话题下所有问题和回答
数据存储
MySQL: topic question answer
数据抓取
requwsts/xpath/re
配置
mac
cookie
解密chrome cookie文件
变更
https://www.zhihu.com/api/v4/questions/{}/answers?sort_by=default&include={}&limit=20&offset={}
现在变成了post:
https://www.zhihu.com/node/QuestionAnswerListV2
Form Data:
-
method:next
-
params:{"url_token":36535039,"pagesize":10,"offset":30}
接口返回数据格式由原来的json数据变成了html,需要进一步xpath解析.
几个topic数据已在变化前全部抓下来了,后面会放到百度云上.
抓取结果
topic记录: 30
question记录: 8868
answer记录: 3145338
不过有封禁策略,最好不好做这样的测试,毕竟是爬取,现在都有反爬机制
标签:www,Python,question,抓取,话题,topic From: https://www.cnblogs.com/ITYueQianGu888/p/16667858.html