Elasticsearch 聚合性能优化六大猛招

时间：2022-10-18 22:39:15浏览次数：118

标签：聚合 0001 猛招写入 Elasticsearch 刷新 test

Elasticsearch 最少必要知识实战教程直播回放

1、问题引出

默认情况下，Elasticsearch 已针对大多数用例进行了优化，确保在写入性能和查询性能之间取得平衡。我们将介绍一些聚合性能优化的可配置参数，其中部分改进是以牺牲写入性能为代价的。目标是将聚合优化招数汇总到一个易于消化的短文中，为大家的 Elasticsearch 集群聚合性能优化提供一些指导。

2、聚合实战问题

问题1：1天的数据 70W,聚合2次分桶正常查询时间是 200ms左右, 增加了一个去重条件, 就10-13秒了,有优化的地方不？
问题2：请问在很多 terms 聚合的情况下，怎样优化检索？我的场景在无聚合时，吞吐量有 300，在加入 12 个聚合字段后，吞吐量不到20。
问题3：哪位兄弟帮忙发一个聚合优化的链接，我这个聚合几千万就好几秒了？

3、认知前提

3.1 Elasticsearch 聚合是不严格精准的

原因在于：数据分散到多个分片，聚合是每个分片的取 Top X，导致结果不精准。

可以看一下之前的文章：Elasticsearch 聚合数据结果不精确，怎么破？

3.2 从业务层面规避全量聚合

聚合结果的精准性和响应速度之间是相对矛盾的。

正常业务开发，产品经理往往要求：

第一：快速秒级或者毫秒级聚合响应。
第二：聚合结果精准。

殊不知，二者不可兼得。

遇到类似两者都要兼得的需求，建议从架构选型和业务层面做规避处理。

3.3 刷新频率

如下图所示，Elasticsearch 中的 1 个索引由一个或多个分片组成，每个分片包含多个segment（段），每一个段都是一个倒排索引。

在 lucene 中，为了实现高索引速度，使用了segment 分段架构存储。一批写入数据保存在一个段中，其中每个段最终落地为磁盘中的单个文件。

Elasticsearch 聚合性能优化六大猛招_大数据

如下图所示，将文档插入 Elasticsearch 时，它们会被写入缓冲区中，然后在刷新时定期从该缓冲区刷新到段中。刷新频率由 refresh_interval 参数控制，默认每1秒发生一次。也就是说，新插入的文档在刷新到段（内存中）之前，是不能被搜索到的。

Elasticsearch 聚合性能优化六大猛招_数据库_02

刷新的本质是：写入数据由内存 buffer 写入到内存段中，以保证搜索可见。

来看个例子，加深对 refresh_inteval（232, 232, 232); background: rgb(249, 249, 249);">

PUT test_0001/_doc/1
{
  "title":"just testing"
}
# 默认一秒的刷新频率，秒级可见（用户无感知）
GET test_0001/_search

DELETE test_0001
# 设置了60s的刷新频率
PUT test_0001
{
  "settings": {
    "index":{
      "refresh_interval":"60s"
    }
  }
}

PUT test_0001/_doc/1
{
  "title":"just testing"
}
# 60s后才可以被搜索到
GET test_0001/_search

标签：聚合,0001,猛招,写入,Elasticsearch,刷新,test
From： https://blog.51cto.com/elasticsearch/5768285

Elasticsearch 如何实现类主流搜索引擎广告置顶显示效果？
1、需求私信问题：Elasticsearch如何实现类似百度广告置顶显示给定商品数据的效果？置顶显示某特定数据就是：搜索某关键词，出现关联广告置顶显示的效果。举例：百度搜索“电动汽车......
Elasticsearch 线程池和队列问题，请先看这一篇
手敲脑图串讲Elasticsearch核心知识点1、线程池相关线上实战问题问题1：从Kafka消费数据导入elasticsearch时，批量bulk写入抛异常被拒绝。ES集群四个节点，其中：两个节......
如何不写一行代码把 Mysql json 字符串解析为 Elasticsearch 的独立字段
Elasticsearch最少必要知识实战教程直播回放1、事出有因实战问题：有数百万数据需要导入Elasticsearch做性能对比测试，但当前数据存储在Mysql中，且核心字段以Json字符......
Elasticsearch 自定义分词同义词环节的这个细节不大好理解......
1、问题引出球友认证考试前一天晚上提问：扩展背景描述：这是Elasticsearch自定义分词Textanalysis章节Tokenfilterreference小节的同义词token过滤（Synonymtoken......
且慢！听说你线上环境准备选型 Elasticsearch SQL 了？
1、由两个线上问题说开去问题1：用Elasticsearch做宽表的报表查询，我们打算用jdbc的方式访问，方便开发（使用sql），这种方式还是用JAVA封装的方法好。有没有坑？问题2：Elasticsearch......
干货 | Elasticsearch 冷热集群架构实战
Elasticsearch最少必要知识实战教程直播回放0、题记Elasticsearch实战数据量级少的时候，单节点就能玩的很6，但是随着数据量的增长，多节点分布式横向扩展集群是大势所趋。之前......
干货 | Elasticsearch基础但非常有用的功能之二：模板
Elasticsearch最少必要知识实战教程直播回放1、引言业务场景1：数据量非常大，需要进行索引生命周期管理，按日期划分索引，要求多个索引的Mapping一致，每次手动创建或者脚本创......
探究 | Elasticsearch集群规模和容量规划的底层逻辑
Elasticsearch最少必要知识实战教程直播回放0、引言实战中经常遇到的问题：问题1：请问下大家是如何评估集群的规模？比如数据量达到百万，千万，亿万，分别需要什么级别的集群，这要......
干货 | Elasticsearch 索引设计实战指南
题记随着Elastic的上市，ELKStack不仅在BAT的大公司得到长足的发展，而且在各个中小公司都得到非常广泛的应用，甚至连“婚庆网站”都开始使用Elasticsearch了。随之而来......
实战 | Elasticsearch自定义评分的N种方法
Elasticsearch最少必要知识实战教程直播回放1、期望Elasticsearch搜索结果更准确，不可回避的三个问题问题1：用户真正的需求是什么？如果不能获得用户的搜索意图，搜索的准确......