背景:
继成功导入输入数据到mongodb,sqlite3之后,发现了一些问题,(写到此处觉得还是有些地方没有去深入的学习可能mongodb已经有解决方案了?):
- 对关键字查询支持不友好,如果要在sql中拆分出不同的关键字sql会比较麻烦。
- 另外排序不友好,如何把最匹配的记录放在最前面?
elasticsearch是对搜索专门支持的文档数据库,对于搜索功能支持很友好,于是尝试了一把增量式导入到ES的功能。
增量式导入:
- 用户会不断有新的收藏信息进入到数据库。
- 导入的过程中,可能会出现意外导致进行到一半不得不退出。下次导入的时候,需要知道最后导入的记录是哪条,然后接着继续导入。
- 可以复用mongodb、sqlite3部分的代码,对代码做了重构。有一个基础类DBImporter可以帮做文件解析,断点定位的共享逻辑。
方案:
为了支持增量式导入,必须要遭到最后一条插入数据库的记录,sqlite3/mongodb轻易而,但是对于es来说就有问题,无法找到最后一条记录是哪条,需要有一个自增的字段来记录。通过这个最大的id来找到最后一条。
尝试了两个方案,都可以做到,最终选择方案2:
- 插入记录中自带_id由一个uuid作用的字符串变成一个自增的数字。这样的好处是不用新增加字段,坏处是破坏了_id字段原本的作用。
- 增加一个叫increasement_id字段。好处是克服了方案1的缺陷,相应的代码量要增加一点。
遇到的问题:
- 一条一条的插入记录很慢的,需要批量插入。改成批量就很快了。
- 插入记录的过程中,有可能有超时的异常,需要设置重试。
- content字段有可能是字符串,也有可能是json对象。mapping已经自动识别为字符串类型,再插入json对象的时候就会异常退出。对于该问题的解决是把json转化成字符串。mongodb以及sqlite3没有遇到。需要在查询的时候,str需要被转化成json对象。
参考代码:https://gitee.com/pmh905001/myfavorite/blob/master/toutiao/esimporter.py
标签:导入到,Search,Elastic,记录,mongodb,插入,json,导入,id From: https://www.cnblogs.com/pmh905001/p/18104826