背景:
今日头题我的收藏搜索功能很弱,收藏的文章在pc/手机上总是如法全部搜索出来。也给头条反馈了很多次,总是不搭理。实在忍受不了这种敷衍,决定自己写一个爬虫。
思路:
- 先解决有无问题,做一个最基础版本。
- 、
- 头条我的收藏是是get请求,返回的是json格式数据,直接使用requests发送请求到头条。
- 滚动到收藏列表底部的时候,网页会发送新的ajax请求到头条,收藏内容滚动到下一页。通过不断发送请求指定max_behot_time不断取出每页的内容
- 关于持久化,sqlite/mongodb/mysql/pg/文本文件。简单实现来看一个文本就解决问题,每页的json类容就是一行。之后再把这些文件内容导入到数据库。
实现:
https://github.com/pmh905001/myfavorite/
标签:请求,爬虫,收藏,发送,json,头条 From: https://www.cnblogs.com/pmh905001/p/17841146.html