首页 > 其他分享 >今日头条我的收藏爬虫

今日头条我的收藏爬虫

时间:2023-11-18 21:24:15浏览次数:30  
标签:请求 爬虫 收藏 发送 json 头条

背景:

今日头题我的收藏搜索功能很弱,收藏的文章在pc/手机上总是如法全部搜索出来。也给头条反馈了很多次,总是不搭理。实在忍受不了这种敷衍,决定自己写一个爬虫。

 

思路:

 

  • 先解决有无问题,做一个最基础版本。


  • 头条我的收藏是是get请求,返回的是json格式数据,直接使用requests发送请求到头条。

     

  • 滚动到收藏列表底部的时候,网页会发送新的ajax请求到头条,收藏内容滚动到下一页。通过不断发送请求指定max_behot_time不断取出每页的内容
  • 关于持久化,sqlite/mongodb/mysql/pg/文本文件。简单实现来看一个文本就解决问题,每页的json类容就是一行。之后再把这些文件内容导入到数据库。

实现:

https://github.com/pmh905001/myfavorite/

 

标签:请求,爬虫,收藏,发送,json,头条
From: https://www.cnblogs.com/pmh905001/p/17841146.html

相关文章

  • 有没有好用免费的图片转PDF网站?这7个建议收藏
    1PDF24Tools这个网站支持很多PDF相关的操作,包括:PDF合并、PDF分割、PDF压缩、PDF编辑、PDF签署、PDF转换器、图片转PDF、PDF转图像、从PDF文件中提取图像、用密码保护PDF、移除PDF密码保护、旋转PDF页面、删除PDF页面、提取PDF页面、重新排列PDF页面、网......
  • Python中的爬虫应用及常用Python库
    Python的爬虫应用非常广泛,以下是一些典型的示例:数据采集:使用爬虫可以从网页上抓取数据,并将其保存到本地或数据库中。这对于构建大规模数据集、进行市场调研、舆情监测等任务非常有用。搜索引擎索引:搜索引擎需要通过网络爬虫来收集和更新互联网上的信息,以便为用户提供准确且......
  • 你的输入格式不对???简单明了直接用的正则表达式,值得收藏
    正则表达式一直是一个比较难以理解和学习的知识,很多开发人员对于正则表达式也是现学现用,用的时候去临时查一个。这篇文章是我用两天时间总结出来的常用正则表达式,涵盖了几乎日常所有常见的校验逻辑,掌握这些正则表达式,每天比别人少些200行代码。整数或者小数^[0-9]+\.{0,1}[0-9]{0......
  • 记一次爬虫实战
    记一次爬虫实战记一次爬虫实战,以爬取我最近在看的小说《不可名状的日记簿》为例。先找到一个合适的网站https://www.qbtxt.co/93_93964/。用的是https协议,socket什么的太麻烦了,直接用python的requests库。写一个封装好的python程序,作用是爬取request.txt中网址的内容到respon......
  • ZooKeeper集群脑裂问题处理,值得收藏!
    转载自:https://cloud.tencent.com/developer/article/1758883==================本文重点讲解ZooKeeper脑裂问题的处理办法。ZooKeeper是用来协调(同步)分布式进程的服务,提供了一个简单高性能的协调内核,用户可以在此之上构建更多复杂的分布式协调功能。脑裂通常会出现在集群环境中......
  • 高清壁纸网址收藏
    https://zhuanlan.zhihu.com/p/382707905高清桌面壁纸网站1.AwesomeWallpapers官网:https://wallhaven.cc主题:创意、摄影、人物、动漫、绘画、视觉分辨率:~4K图片丰富,质量很高,分为通用、动漫、人物三大类,可以按屏幕比例和分辨率检索。2.Desktopwallpapers官网:https://wa......
  • 猫眼电影爬虫
    步骤首先利用pip指令安装所需要的soup以及request库(pip下载速度慢可使用pip镜像,更改下载路径到国内网站)然后对猫眼电影网站进行分析,利用request进行信息的获取,利用soup库进行信息查找和整理。最后进行输出,写入txt文件中代码的实现如下importrequestsfrombs4importBeautifulSo......
  • 一篇掌握华三企业设备---密码复杂度要求(收藏备用)
    作者:网络之路一天 首发公众号:网络之路博客(ID:NetworkBlog)关于密码复杂度要求实际中有的环境对于密码的复杂度、多久修改密码有要求或者客户不想弄的这么复杂,这个时候就需要来定义密码复杂度要求了。[CoreA]local-useradmin[CoreA-luser-manage-admin]passwordsimpleadminThe......
  • Linux-AT命令干货分享,还不赶紧收藏!
    AT简介AT即Attention,AT指令集是从终端设备(TerminalEquipment,TE)或数据中断设备(DataTerminalEquipment,DTE)向终端适配器(TerminalAdapter,TA)或数据电路终端设备(DataCircuitTerminalEquipment,DCE)发送的。通过TA,TE发送AT指令来控制移动台(MobileStation,MS)的功能,与GSM......
  • 爬虫-Scrapy框架(一)-工具
    Scrapy框架一、前言1、介绍前面我们学习了基础的爬虫实现方法和selenium以及数据库,那么接下来会我们学习一个上场率非常高的爬虫框架:scrapy2、内容scrapy的基础概念和工作流程scrapy入门使用二、scrapy的概念和流程学习目标:了解scrapy的概念掌握scrapy框架的运行流......