背景:
- 续接前文,当我们有了原始数据之后,自然会想如何利用这些数据。这些文件数据都是json格式,打开一个文本文件眼睛都要看花。所以想把这些数据导入到对应的数据库中,市面上几乎所有数据库都支持json格式存储。
- 随着时间的推移,用户不断有新的收藏,这样就不断产生新的收藏文件。需要不断的导入到数据库中。
- sqlite 3.38版本支持json格式。
- mongodb本身就是nosql数据库中做的很好的。之前在公司曾经考虑把json数据存储到mongodb,可惜方案被否(当时数据存储已经选择了mysql,且mysql支持json格式)。可以利用这个机会学习mongodb
思路:
- 先实现一个全量的数据导入mongodb。有多个原始文本文件记录了我的收藏信息,他们是倒序的。文本需要按照时间先后顺序依次导入。
- 再增量导入到mongodb。需要在mongodb中找到最后一条数据的id,根据这个id从多个文本文件中找到具体的位置,继续导入。需要考虑到断点在文本文件中(导入到一半,用户终止了程序),也有可能在文本文件头部(正常导入)。
实现:
- 代码实现在这里:https://github.com/pmh905001/myfavorite/blob/master/toutiao/import2mongodb.py
标签:导入到,mongodb,爬虫,收藏,json,导入,文本文件 From: https://www.cnblogs.com/pmh905001/p/17916736.html