如果全量数据和增量数据有指定时间,默认近一个月 1. 是否可以通过集合名称中指定当前月份和上月集合,作为一个客户端,如果不行,可以考虑建立别名,该别名中只有近两个月的集合。 2. 其他关系表,更新数据时尽量少从solr中查询,,最后时间以当前的即可(应为bcp文件处理时是有顺序的))、参数(直接即可),最早时间考虑是否可以去掉(展示的时候,可以从全量表中查询即可,且该字段热门值可以缓存),hitcount考虑是否可以去掉(同理展示的时候从solr中查询) 但当前关系表似乎没有构成瓶颈,可以和产品经理确认下。如果不查询已有关系数据,直接插入一台机器写入似乎可以胜任。 3.数据处理程序增量的和全量分开,各使用一台机器处理。 至于一些域名和脚本关联的对象数量,只需要存储哪些关联其他对象数量超过1000个以上的即可。(对时效性要不不算太高,聚类关系抽取的时候先从该表过滤异常点,然后抽取,再判断抽取的关系中是否有异常点,然后存入表中,应该没有需要具体次数的场景,如果阈值变化,删除小于阈值的即可) 4.查询页面只真实前10000条数据。 5.导出可以全量,使用scroll进行深度分页优化。不过最好还是要限制,让用户加上时间限制或其他条件进行过滤。 6.段合并,适量加大mergeFactor参数,来降低合并频率,频繁的段合并会消耗大量系统资源
标签:抽取,solr,可以,设想,查询,使用性能,即可,全量,Solr From: https://www.cnblogs.com/seufelix/p/17502365.html