mongoDB大数据查询遇到的问题

有一个30亿量级数据的库，如何全量爬取并分析？
因为量级过大无法一次性爬取至本地再分析，考虑使用limit().skip()混合的方法，一次读取1万条数据进行分析存储，30亿数据分成30万份后再合并分析生成最后的结果。代码如下：

// i为跳跃条数，比如取第一个1万条时i为0，第二个1万条时i为1
db.getCollection("whois").find({}).limit(10000).skip(i*10000)

30个进程并发计算，一个进程负责1万份的量级。简单测试了下读取速度，非常快，几乎一秒读取数据，剩下的就是cpu本地计算的事儿了，预计8个小时完成，锁屏，下班。第二天来一看，发现了很奇怪的现象。

1.一天过去，数据只跑了2亿条左右。

2.大部分进程阻塞或者死掉。

3.前几个进程爬取的数据远远多于后面的进程，比如第一个进程的一万份数据基本上爬取完毕，第二个进程爬取了大半，第三个进程及以后非常的少甚至没有数据。

出现以上现象的原因：
skip不适用于大数据的查询搜索，数据量小的时候还可以，效率高，但是一但数据量达到一个层级（mongoDB本身提供的几十mb的内存限制）后，查询的算法会更改。比如查询limi(10000).skip(0)，即前一万条数据，很快查询并返回，因为经历了很少的分页查询，但是一但你使用limit(10000).skip(1000000000)，那么你会惊喜的发现查几天都出不来结果甚至直接查询失败。反复的查询数据提取到内存，一条条的数，看是否达到你想要条数，如果没有则继续提取剩余数据继续数，直到查询到想要的条数。在这里索引没有起到任何作用。官方有这么一句话：MongoDB会根据查询，来加载文档的索引和元数据到内存里，并且建议文档元数据的大小始终要保持小于机器内存，否则性能会下降。除此之外，基于以上现象，本人也强烈建议skip的数据量也小于分配内存。

如何解决？
那么应该如何爬取这样的全量数据来分析呢？这样的量级首先并不是特别大，只是想在本地简单分析，使用spark、scala来做会显得很大很不合适。所以将上面语句改写一下，既能达到本机跑效果，又能不被服务器的IO速度限制。我们可以利用索引，最好是全局唯一性的（即无相同值的）索引来进行边排序边查找。比如我选用_id这个字段，首先规定排序方式为升序，然后依次读取一万条数据，获得最后一条数据的_id字段值 Q ，那么读取下一个一万条数据时，我就可以利用索引查到 Q 后面的一万条数据。那么如此以来，无论你读取的数据量多靠后，都能利用索引的优势快速定位并返回，而不是从头开始一条一条数过去。

//key为上一次查询的最后一条记录的_id值
col_name.find({"_id": {"$gt": ObjectId(key)}}).sort("_id", 1).limit(10000)

但是你会发现这样的查询完全依赖上一次查询的值，这对多线程多进程并发并不友好。

可以从以下几点进行优化：
1.再开一个线程或者进程，采用倒序的方式进行查找计算，只不过查询条件变为$lt，按照全量数据的一半的量为两个进程分配查询的次数。但这样也仅能将速度提高一倍。

2.如果原始数据是一个集群，那么可以分布式计算，比如数据分为了八个区，那么不同区数据采用正序倒序来分别进行爬取（总共16个线程或进程）。

3.稍微简单：升序或者降序后通过skip或者模拟预爬取，获得全量数据不同位置的_id值，这样就手动将数据进行了分桶，然后再根据分桶情况来进行正序倒序爬取。（但是有可能skip值过大时无法计算）

标签：遇到,mongoDB,查询,爬取,skip,进程,数据,id
From： https://www.cnblogs.com/Acheng1011/p/16880310.html

mongoDB大数据查询遇到的问题

相关文章

赞助商

阅读排行