首页 > 数据库 >爬虫-今日头条我的收藏-增量式导入到mongodb(三)

爬虫-今日头条我的收藏-增量式导入到mongodb(三)

时间:2023-12-20 16:24:28浏览次数:51  
标签:导入到 mongodb 爬虫 收藏 json 导入 文本文件

背景:

  • 续接前文,当我们有了原始数据之后,自然会想如何利用这些数据。这些文件数据都是json格式,打开一个文本文件眼睛都要看花。所以想把这些数据导入到对应的数据库中,市面上几乎所有数据库都支持json格式存储。
  • 随着时间的推移,用户不断有新的收藏,这样就不断产生新的收藏文件。需要不断的导入到数据库中。
  • sqlite 3.38版本支持json格式。
  • mongodb本身就是nosql数据库中做的很好的。之前在公司曾经考虑把json数据存储到mongodb,可惜方案被否(当时数据存储已经选择了mysql,且mysql支持json格式)。可以利用这个机会学习mongodb

 

思路:

  • 先实现一个全量的数据导入mongodb。有多个原始文本文件记录了我的收藏信息,他们是倒序的。文本需要按照时间先后顺序依次导入。
  • 再增量导入到mongodb。需要在mongodb中找到最后一条数据的id,根据这个id从多个文本文件中找到具体的位置,继续导入。需要考虑到断点在文本文件中(导入到一半,用户终止了程序),也有可能在文本文件头部(正常导入)。

 

实现:

  • 代码实现在这里:https://github.com/pmh905001/myfavorite/blob/master/toutiao/import2mongodb.py

 

标签:导入到,mongodb,爬虫,收藏,json,导入,文本文件
From: https://www.cnblogs.com/pmh905001/p/17916736.html

相关文章

  • Python爬虫框架推荐及其特点
    在网络爬虫开发中,选择适合的爬虫框架可以大大提高开发效率和爬取数据的质量。Python作为一种广泛应用于爬虫开发的编程语言,有许多优秀的爬虫框架可供选择。本文将介绍几个好用的Python爬虫框架,并列举它们的特点,帮助您选择适合自己的框架。1.Scrapy:Scrapy是一个强大的开源爬虫框架,被......
  • 《Python网络爬虫:从入门到实战》
    ......
  • MongoDB中如何优雅地删除大量数据
    删除大量数据,无论是在哪种数据库中,都是一个普遍性的需求。除了正常的业务需求,我们也需要通过这种方式来为数据库“瘦身”。为什么要“瘦身”呢?表的数据量到达一定量级后,数据量越大,表的查询性能相对也会越差。毕竟数据量越大,B+树的层级会越高,需要的IO也会越多。表的数据有......
  • 提高Go爬虫效率的方法
     Go语言是一种高效、并发性能出色的编程语言,非常适合用于开发爬虫程序。然而,为了提高Go爬虫的效率,我们需要注意一些优化方法。本文将介绍一些提高Go爬虫效率的方法,帮助您优化和加速爬虫程序的执行。 1.使用并发处理: Go语言天生支持并发编程,可以充分利用多核处理器的优势。通过......
  • 如何建立自己的代理IP池,减少爬虫被封的几率
    前言建立自己的代理IP池可以帮助减少爬虫被封的几率。通过使用代理IP,我们可以隐藏爬虫的真实IP地址,提高爬取网站的稳定性和安全性。本文将介绍如何建立一个代理IP池,并提供相关代码示例。一、了解代理IP的工作原理在开始建立代理IP池之前,我们需要了解代理IP的工作原理。代理IP是一个......
  • Request+Python微博爬虫实战
    1Request爬虫基础Request爬虫基本步骤:1、构造URL;2、请求数据;3、解析数据;4、保存数据例:爬取豆瓣某图片importrequests#第1步:构造URLurl='https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2624516210.jpg'#第2步:请求数据r=requests.get(url)#第3步:解......
  • 验证码:防范官网恶意爬虫攻击,保障用户隐私安全
    网站需要采取措施防止非法注册和登录,验证码是有效的防护措施之一。攻击者通常会使用自动化工具批量注册网站账号,以进行垃圾邮件发送、刷量等恶意活动。验证码可以有效阻止这些自动化工具,有效防止恶意程序或人员批量注册和登录网站。恶意程序或人员通常会使用暴力破解等方式尝试登......
  • 【python爬虫课程设计】纵横中文网——分类数据爬取+数据可视化
    一、选题的背景通过新书榜和推荐榜来分析小说分类和人气之间的关系,让作者能加了解读者的需求,写出令读者感兴趣的题材来吸引读者。热门的小说分类是社会文化普遍认可的体现,了解和分析社会文化对于提升和改善社会文化起着重要作用。了解热门小说分类让新人作者选择题材时有份......
  • 【K哥爬虫普法】北京某公司惨遭黑客攻击13000000余次,连夜报警……
     我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用爬虫技术,警钟长鸣,做一个守法、护法、有原则的技术人员。案情介绍“我啥......
  • 基于网络爬虫技术的网络新闻分析
    前言随着互联网的发展和普及,网络新闻成为人们获取信息的重要途径。然而,由于网络新闻的数量庞大,分析和处理这些新闻变得愈发困难。本文将介绍如何使用网络爬虫技术以及代理IP来进行网络新闻分析。一、网络爬虫技术网络爬虫技术是指通过自动化程序来获取互联网上的信息。在网络新闻分......