首页 > 其他分享 >elasticsearch运维调优-集群和冷热集群

elasticsearch运维调优-集群和冷热集群

时间:2023-11-01 10:37:16浏览次数:43  
标签:data 配置 运维调 索引 集群 elasticsearch 数据 节点

集群:

node1-node3专用主节点

node3仅投票节点

elasticsearch运维调优-集群和冷热集群_搜索

 

启动服务:
./bin/elasticsearch
后台启动守护进程
./bin/elasticsearch
推荐方式
./bin/elasticsearch -d -p pid


关闭进程
ps -ef|grep elastic


杀进程
kill -9 'cat pid'

pkill  -F pid

常见问题:
本地无法访问:
关闭防火墙,生产环境建议仅开放指定端口

systemctl stop firewalld
#禁用防火墙systemctl disabled firewalld

 

配置节点:

  • clustername:集群名称,节点根据集群名称确定是否是同一个集群。
  • 。node.name:节点名称,集群内唯一。
  • noderoles:[data,master, voting_only],node.roles配置项如果没有显式的配置,那么当前节点拥有所有角色 (master、data、ingest、ml、remote cluster_client、transform) 。如果你放开了注释,或者手动显式添加了 node.role配置项,那么当前节点仅拥有此配置项的中括号中显式配置的角色,没有配置的角色将被阉割。因此如果在不熟悉角色配置的情况下,不要轻易修改角色配置值,切勿画蛇添足。network.host: 节点对外提供服务的地址以及集群内通信的ip地址bootstrap.memory_lock: Swapping对性能和节点稳定性非常不利,应该不惜一切代价避免。它可能导致GC持续几分钟而不是几毫秒,并且可能导致节点响应缓慢甚至与集群断开连接。在弹性分布式系统中,使用Swap还不如让操作系统杀死节点效果更好。可以通过设置 bootstrap.memory_lock: true 以防止任何Elasticsearch 堆内存被换出。
  • http.port:对外提供服务的端口号
  • discovery.seed hosts: 集群初始化的种子节点,可配置部分或全部候选节点,大型集群可通过嗅探器发现剩余节点,考试环境配置全部节点即可
  • clusterinitial_master_nodes: 节点初始active master节点,必须是有master角色的节点,即必须是候选节点,但并不是必须配置所有候选节点。生产模式下启动新集群时,必须明确列出应在第一次选举中计算其选票的候选节点。第一次成功形成集群后,cluster.initial_master_nodes从每个节点的配置中删除设置。重新启动集群或向现有集群添加新节点时,请勿使用此设置。

 高可用集群

elasticsearch运维调优-集群和冷热集群_搜索_02

elasticsearch运维调优-集群和冷热集群_搜索_03

 

elasticsearch运维调优-集群和冷热集群_数据_04

 

冷热集群

1、冷热数据分离思想
2、数据层:Data tiers
2.1 内容层:Content Tier
2.2 热数据层:Hot Tier
2.3 温数据层:Warm Tier
2.4 冷数据层:Cold Tier
2.5 冻结层:Frozen Tier
3、节点角色
3.1 内容节点
3.2 热数据节点
3.3 温数据节点
3.4 冷数据节点
3.5 冻结数据节点

引言

首先抛出问题:对于热点搜索而言,最高效的存储手段是什么?

一味地堆硬件配置,不仅不能有效的解决问题,反而会让服务变得臃肿,集群变得累赘增加管理成本和硬件成本。

本文主要探讨关于热点数据的高效存储问题,讨论范围在数据持久化前提下,多级缓存暂不讨论。

 

1、冷热数据分离思想
冷热集群架构方案即我们常说的冷热数据分离。本质是针对不同访问频率的数据做分离存储,让访问量高的数据存放在性能更好的磁盘中,以实现更合理的资源分配和调度。

就实际而言,其实超过80%的请求,集中在20%的数据上,所以如果普遍采取廉价的机械磁盘存储,势必达不到良好的性能。而如果全面采用SSD做保证数据持久化存储,又会带来高昂的硬件成本,这其实完全没有必要。

这里有人提过质疑,说热数据做缓存就行了呀,费这个劲干啥?其实从原理上来说,冷热数据分离和多级缓存是非常类似的,一句话概括就是把更高频访问的数据,放在性能搞好的硬件上。但区别就是多级缓存是不考虑数据持久化的。

这种资源分层调度的思想应用其实非常广泛:

性能越快的硬件往往空间越少,以至于其只能把最高频使用的数据放进去,如CPU的L1、L2、L3三级缓存。性能递减,容量递增。上升到整个计算机层面,CPU到内存再到磁盘,也是速度递减,容量递增。本质上讲,就是把最常用的东西放在最近的位置。

举个通俗易懂的例子:

我们睡觉的时候,都是把第二天要穿的衣服放在床边,床边是最方便的,但是床边就只能放这么一套衣服,放不了太多。
如果向要换衣服,就要去衣柜里找,衣柜的空间更大,但是衣柜离我们更远,拿取衣服就需要翻箱倒柜(寻址)
衣柜里也没你想要的衣服了,那你就要去商场里购买,商场里有足够多的衣服让你选,但是商场很远,你需要更多的时间来选衣服、把衣服运送过来。
这个例子可以看成是一个多级缓存的例子,在这里例子里,床边让你放衣服的椅子拿衣服是最快的,你可以看成是你的顶级缓存或一级缓存;衣柜可以看成是你的二级缓存,容量大一些,速度慢一些;而商场就是三级缓存,容量更大,速度更慢。如果把这个过程看成是计算机的CPU、内存到磁盘的过程。那么在商场中选购衣服可以看成是在磁盘中查找数据。选衣服的过程就是磁盘寻址,而把衣服拿回家,就是磁盘IO。

同样这个例子也可以是冷热数据分离的一个比喻,此时我们可以把数据划分为热数据、温数据、冷数据三个阶段。那么可以做如下类比:

床边放衣服的椅子 => 热数据
衣柜 => 温数据
商场 => 冷数据
2、数据层:Data tiers
在 Elasticsearch 中,不同热度的数据,通过 Data tiers 来界定。数据层是具有相同数据角色的节点的集合,通常共享相同的硬件配置文件。根据不同的热度,ES 把数据层定义为四个阶段:

hot tier:处理时间序列数据(例如日志或指标)的索引负载,并保存您最近、最常访问的数据。
warm tier:保存访问频率较低且很少需要更新的时间序列数据。
cold tier:保存不经常访问且通常不更新的时间序列数据。
frozen tier:保存很少访问且从不更新的时间序列数据,保存在可搜索的快照中。
另外还有一个特殊的内容层:

content tier:处理产品目录等内容的索引和查询负载。
当文档直接索引到特定 index 时,会永久保留在 content tier 节点上。

当文档索引到数据流时,数据最初驻留在 hot tier 节点上。

2.1 内容层:Content Tier
存储在内容层中的数据通常是项目的集合,例如产品目录或文章存档。与时间序列数据不同,内容的价值随着时间的推移保持相对恒定,因此随着时间的推移将其移动到具有不同性能特征的层是没有意义的。内容数据通常具有较长的数据保留要求,并且您希望能够快速检索项目,无论它们有多旧。

内容层节点通常针对查询性能进行优化——它们优先考虑处理能力而不是 IO 吞吐量,因此它们可以处理复杂的搜索和聚合并快速返回结果。虽然它们还负责索引,但内容数据的摄取率通常不如日志和指标等时间序列数据那么高。从弹性的角度来看,该层中的索引应配置为使用一个或多个副本。

内容层是必需的。不属于数据流的系统索引和其他索引会自动分配给内容层。

2.2 热数据层:Hot Tier
热层是时间序列数据的 Elasticsearch 入口点,保存最近、最常搜索的时间序列数据。热层中的节点需要快速读取和写入,这需要更多的硬件资源和更快的存储 (SSD)。为了弹性,热层中的索引应配置为使用一个或多个副本。

热层是必须的。作为数据流一部分的新索引会自动分配给热层。

2.3 温数据层:Warm Tier
一旦查询的频率低于热层中最近索引的数据,时间序列数据就可以移动到热层。暖层通常保存最近几周的数据。仍然允许更新,但可能不频繁。热层中的节点通常不需要像热层中的节点那样快。为了弹性,应将暖层中的索引配置为使用一个或多个副本。

2.4 冷数据层:Cold Tier
一旦数据不再被更新,它就可以从暖层移动到冷层,并在不经常被查询的情况下停留在那里。冷层仍然是响应式查询层,但冷层中的数据不会正常更新。随着数据转换到冷层,它可以被压缩和缩小。对于弹性,冷层可以使用完全安装的 可搜索快照索引,从而消除对副本的需求。

2.5 冻结层:Frozen Tier
一旦数据不再被查询或很少被查询,它可能会从冷层移动到冻结层,并在其余生中停留。

冻结层使用部分安装的索引来存储和加载来自快照存储库的数据。这降低了本地存储和运营成本,同时仍然让您搜索冻结的数据。因为 Elasticsearch 有时必须从快照存储库中获取冻结数据,所以在冻结层上的搜索通常比在冷层上慢。

 

1,通过节点角色来控制

角色

  • data_content
  • data_hot
  • data_warm
  • data_cold
  • data_frozen

关于 node.roles的注意事项
node.roles配置项如果没有显式的配置,那么当前节点拥有所有角色 (master、data、ingest、mlremote cluster client、transform) 。如果你放开了注释,或者手动显式添加了 node.roles配置项,那么当前节点仅拥有此配置项的中括号中显式配置的角色,没有配置的角色将被阉割。因此如果在不熟悉角色配置的情况下,不要轻易修改角色配置值,切勿画蛇添足
7.13 之后版本不要使用传统的老方式去配置角色设置,即: 如下方式不要再用

  • node.master: true
  • node.data: true

单节点集群一定要保证节点同时拥有 master和 data 两个角色,切记是 data(或 data content)不是 data hot/data warm/data cold.

 

elasticsearch运维调优-集群和冷热集群_elasticsearch_05

 

elasticsearch运维调优-集群和冷热集群_elasticsearch_06

案例:

elasticsearch运维调优-集群和冷热集群_时间序列_07

 

3.1 内容节点
内容数据节点容纳用户创建的内容。它们支持 CRUD、搜索和聚合等操作。

要创建专用内容节点,在配置文件中设置:

node.roles: [ data_content ]
1
3.2 热数据节点
热数据节点在进入 Elasticsearch 时存储时间序列数据。热层对于读取和写入都必须快速,并且需要更多的硬件资源(例如 SSD 驱动器)。

要创建专用热节点,配置

node.roles: [ data_hot ]
1
3.3 温数据节点
暖数据节点存储不再定期更新但仍在查询的索引。查询量的频率通常低于索引处于热层时的频率。此层中的节点通常可以使用性能较低的硬件。

要创建一个专用的暖节点,

node.roles: [ data_warm ]
1
3.4 冷数据节点
冷数据节点存储访问频率较低的只读索引。该层使用性能较低的硬件,并且可以利用可搜索的快照索引来最小化所需的资源。

要创建专用冷节点,设置

node.roles: [ data_cold ]
1
3.5 冻结数据节点
冻结层 专门存储部分安装的索引。我们建议您在冻结层中使用专用节点。

要创建专用的冻结节点,设置

node.roles: [ data_frozen ]
1

 

标签:data,配置,运维调,索引,集群,elasticsearch,数据,节点
From: https://blog.51cto.com/u_12903656/8119439

相关文章

  • ElasticSearch深度解析入门篇:高效搜索解决方案的介绍与实战案例讲解,带你避坑
    ElasticSearch深度解析入门篇:高效搜索解决方案的介绍与实战案例讲解,带你避坑1.Elasticsearch产生背景大规模数据如何检索如:当系统数据量上了10亿、100亿条的时候,我们在做系统架构的时候通常会从以下角度去考虑问题:1)用什么数据库好?(mysql、oracle、mongodb、hbase…)2)如......
  • Redis集群模式incr保证原子性的原理
    1.主要是redis的key会解析到固定的主机上,比如集群上有host1,host2,host3;然后key1可能会解析后发现是要发到host2上,则在host2正常的情况下(有点像kafkarebalance;consumer处理哪些分区),key1会一直在host2上进行操作;因此在redis集群正常情况下不会出现对key1第一次incr是在host2,第二次......
  • ELASTICSEARCH-监控工具cerebro
    文件摘自https://www.cnblogs.com/hogan0210/p/16279731.html  cerebro下载地址:https://github.com/lmenezes/cerebro/releases/download/v0.9.4/cerebro-0.9.4.tgz1、解压tar-zxvfcerebro-0.9.4.tgz2、配置访问elasticsearch服务(可配置多个,不配置不可访问)修改cereb......
  • DHorse改用fabric8的SDK与k8s集群交互
    现状在dhorse1.4.0版本之前,一直使用k8s官方提供的sdk与k8s集群交互,官方sdk的Maven坐标如下:<dependency> <groupId>io.kubernetes</groupId> <artifactId>client-java</artifactId> <version>18.0.0</version></dependency>但是自从1.4.0版本以后,dhor......
  • 使用 Sealos 一键部署 Kubernetes 集群
    Sealos是一款以Kubernetes为内核的云操作系统发行版,使用户能够像使用个人电脑一样简单地使用云。与此同时,Sealos还提供一套强大的工具,可以便利地管理整个Kubernetes集群的生命周期。Sealos不仅可以一键安装一个单节点的Kubernetes开发环境,还能构建数千节点的生产高可......
  • Redis的四种模式:单机、主从、哨兵、集群简介
    Redis的单机模式单机模式就是安装一个redis,启动起来,业务调用即可。具体安装步骤和启动步骤就不赘述了,单机在很多场景也是有使用的,例如在一个并非必须保证高可用的情况下。单机的优点:部署简单,0成本。成本低,没有备用节点,不需要其他的开支。高性能,单机不需要同步数据,数据......
  • 集群/堆叠的常用部署实施方式,你会吗?
    你们好,我的网工朋友。交换机的连接方式大家应该都知道吧,一共有三种,分别是:级联、堆叠和集群。级联一般用来实现多台交换机之间的互相连接。堆叠和集群,就总有网工把这两给搞迷糊了。堆叠就是将多台支持堆叠特性的交换机通过堆叠线缆连接在一起,从逻辑上虚拟成一台交换设备,作为一个整体......
  • 【Elasticsearch】es脚本编程使用详解
    目录一、es脚本语言介绍1.1什么是es脚本1.2es脚本支持的语言1.3es脚本语言特点1.4es脚本使用场景二、环境准备2.1docker搭建es过程2.1.1拉取es镜像2.1.2启动容器2.1.3配置es参数2.1.4重启es容器并访问2.2docker搭建kibana过程2.2.1拉取kibana镜像2.2.2启动kibana容器2.......
  • Ansible部署mariadb高可用集群
    节点规划主机名IP地址master192.168.238.10node1192.168.238.11node2192.168.238.12node3192.168.238.13准备四台虚拟机,使用CentOS-7-x86_64-DVD-2009.iso镜像基础准备1,安装ansible[root@masterroot]# yuminstallepel-release-y  #......
  • ELK中 Elasticsearch和Logstash内存大小设置的考虑
    本文为博主原创,转载请注明出处:在ELK(Elasticsearch、Logstash和Kibana)日志采集和分析场景中,适当设置Logstash和Elasticsearch的内存大小非常重要。这可以确保系统能够高效地处理大量的日志数据,并提供快速的搜索和分析功能。对于Logstash和Elasticsearch的内存大小设置,没......