首页 > 其他分享 >Elasticesearch集群概念

Elasticesearch集群概念

时间:2024-01-19 18:55:26浏览次数:27  
标签:Elasticesearch Node 副本 概念 集群 分片 文档 节点

分布式集群

单节点集群

我们在包含一个空节点的集群内创建名为 users 的索引,为了演示目的,我们将分配 3个主分片和一份副本(每个主分片拥有一个副本分片)

// PUT 请求:http://localhost:1001/users

//请求体
{
 "settings" : {
 "number_of_shards" : 3, // 创建三个主分片
 "number_of_replicas" : 1 // 每个在主分片有一个副本
 }
}

通过 elasticsearch-head 插件查看集群情况
image

image

当前我们的集群是正常运行的,但是在硬件故障时有丢失数据的风险,因为副本是不保存在同一个节点上的,如果都保存在同一个节点,那么就没有意义了。

故障转移

当集群中只有一个节点在运行时,意味着会有一个单点故障问题——没有冗余。 幸运
的是,我们只需再启动一个节点即可防止数据丢失。当你在同一台机器上启动了第二个节点时,只要它和第一个节点有同样的 cluster.name 配置,它就会自动发现集群并加入到其中。但是在不同机器上启动节点的时候,为了加入到同一集群,你需要配置一个可连接到的单播主机列表。之所以配置为使用单播发现,以防止节点无意中加入集群。只有在同一台机器上运行的节点才会自动组成集群。

如果启动了第二个节点,我们的集群将会拥有两个节点的集群 : 所有主分片和副本分片都已被分配
image

水平扩容

怎样为我们的正在增长中的应用程序按需扩容呢?当启动了第三个节点,我们的集群将会拥有三个节点的集群 : 为了分散负载而对分片进行重新分配

image

集群健康值green (9 of 9):表示有9个分片(包括3个主分片和6个副本分片)都正常运行

Node 1 和 Node 2 上各有一个分片被迁移到了新的 Node 3 节点,现在每个节点上都拥有 3 个分片,
这表示每个节点的硬件资源(CPU, RAM, I/O)将被更少的分片所共享,每个分片的性能将会得到提升。
分片是一个功能完整的搜索引擎,它拥有使用一个节点上的所有资源的能力。 我们这个拥有 9 个分
片(3 个主分片和 6 个副本分片)的索引可以最大扩容到 9 个节点,每个节点上存在一个分片,并且每个分片拥有所在节点的全部资源。

但是如果我们想要扩容超过 6 个节点怎么办呢?

主分片的数目在索引创建时就已经确定了下来。实际上,这个数目定义了这个索引能够存储 的最大数据量。(实际大小取决于你的数据、硬件和使用场景。) 但是,读操作——搜索和返回数据——可以同时被主分片 或 副本分片所处理,所以当你拥有越多的副本分片时,也将拥有越高的吞吐量。
在运行中的集群上是可以动态调整副本分片数目的,我们可以按需伸缩集群。让我们把副本数从默认的 1 增加到 2

{
 "number_of_replicas" : 2
}

应对故障

我们关闭的节点是一个主节点。而集群必须拥有一个主节点来保证正常工作,所以发生的第一件事情就是选举一个新的主节点: Node 2 。在我们关闭 Node 1 的同时也失去了主分片 1 和 2 ,并且在缺失主分片的时候索引也不能正常工作。 如果此时来检查集群的状况,我们看到的状态将会为 red :不是所有主分片都在正常工作。
幸运的是,在其它节点上存在着这两个主分片的完整副本, 所以新的主节点立即将这
些分片在 Node 2 和 Node 3 上对应的副本分片提升为主分片, 此时集群的状态将会为yellow。这个提升主分片的过程是瞬间发生的,如同按下一个开关一般。
image

路由计算

当索引一个文档的时候,文档会被存储到一个主分片中。 Elasticsearch 如何知道一个文档应该存放到哪个分片中呢?当我们创建文档时,它如何决定这个文档应当被存储在分片1 还是分片 2 中呢?首先这肯定不会是随机的,否则将来要获取文档的时候我们就不知道从何处寻找了。实际上,这个过程是根据下面这个公式决定的:

shard = hash(routing) % number_of_primary_shards
  • routing 是一个可变值,默认是文档的 _id ,也可以设置成一个自定义的值。 routing 通过
  • hash 函数生成一个数字,然后这个数字再除以 number_of_primary_shards (主分片的数量)后得到余数 。这个分布在 0 到 number_of_primary_shards-1 之间的余数,就是我们所寻求的文档所在分片的位置。

所有的文档 API( get 、 index 、 delete 、 bulk 、 update 以及 mget )都接受一个叫做 routing 的路由参数 ,通过这个参数我们可以自定义文档到分片的映射。一个自定义的路由参数可以用来确保所有相关的文档——例如所有属于同一个用户的文档——都被存储到同一个分片中。

分片控制

我们假设有一个集群由三个节点组成。 它包含一个叫 emps 的索引,有两个主分片,每个主分片有两个副本分片。相同分片的副本不会放在同一节点

我们可以发送请求到集群中的任一节点。 每个节点都有能力处理任意请求。 每个节点都知道集群中任一文档位置,所以可以直接将请求转发到需要的节点上。 在下面的例子中,将所有的请求发送到 Node 1,我们将其称为 协调节点(coordinating node)
当发送请求的时候, 为了扩展负载,更好的做法是轮询集群中所有的节点。

写流程

新建、索引和删除 请求都是 写 操作, 必须在主分片上面完成之后才能被复制到相关的副本分片

image

新建,索引和删除文档所需要的步骤顺序:

  • 客户端请求集群节点(任意)-协调节点
  • 协调节点将请求转换到指定的节点
  • 主分片需要将请求转换到指定的节点
  • 主分片需要将数据发送到各个副本-即节点2,节点3.
  • 副本保存后,反馈给主分片节点
  • 主分片对协调节点进行反馈
  • 客户端获取反馈

在客户端收到成功响应时,文档变更已经在主分片和所有副本分片执行完成,变更是安全的。
有一些可选的请求参数允许您影响这个过程,可能以数据安全为代价提升性能。这些选项很少使用,因为 Elasticsearch 已经很快,但是为了完整起见,请参考下面表格:
image
image

新索引默认有 1 个副本分片,这意味着为满足规定数量应该需要两个活动的分片副本。 但是,这些默认的设置会阻止我们在单一节点上做任何事情。为了避免这个问题,要求只有当 number_of_replicas 大于 1 的时候,规定数量才会执行。

读操作

image

  • 客户端发送查询请求到协调节点
  • 协调节点计算数据所在的分片以及全部的副本位置
  • 为了能够负载均衡,可以轮询所有节点
  • 将请求转发给具体的节点
  • 节点返回查询结果,将结果反馈给客户端

更新流程

部分更新一个文档结合了先前说明的读取和写入流程:

image

部分更新一个文档的步骤如下:

  1. 客户端向 Node 1 发送更新请求。
  2. 它将请求转发到主分片所在的 Node 3 。
  3. Node 3 从主分片检索文档,修改 _source 字段中的 JSON ,并且尝试重新索引主分片的文档。如果文档已经被另一个进程修改,它会重试步骤 3 ,超过 retry_on_conflict 次后放弃。
  4. 如果 Node 3 成功地更新文档,它将新版本的文档并行转发到 Node 1 和 Node 2 上的副本分片,重新建立索引。一旦所有副本分片都返回成功, Node 3 向协调节点也返回成功,协调节点向客户端返回成功。

当主分片把更改转发到副本分片时, 它不会转发更新请求。 相反,它转发完整文档的新版本。请记住,这些更改将会异步转发到副本分片,并且不能保证它们以发送它们相同的顺序到达。 如果 Elasticsearch 仅转发更改请求,则可能以错误的顺序应用更改,导致得到损坏的文档

分片原理

分片是 Elasticsearch 最小的工作单元。但是究竟什么是一个分片,它是如何工作的?
传统的数据库每个字段存储单个值,但这对全文检索并不够。文本字段中的每个单词需要被搜索,对数据库意味着需要单个字段有索引多值的能力。最好的支持是一个字段多个值需求的数据结构是倒排索引

标签:Elasticesearch,Node,副本,概念,集群,分片,文档,节点
From: https://www.cnblogs.com/zgf123/p/17975377

相关文章

  • ES--集群职责划分
     但是真实的集群一定要将集群职责分离:master节点:对CPU要求高,但是内存要求第data节点:对CPU和内存要求都高coordinating节点:对网络带宽、CPU要求高职责分离可以让我们根据不同节点的需求分配不同的硬件去部署。而且避免业务之间的互相干扰。......
  • 嵌入式操作系统的一些基本概念
    1、前后台系统一些对实时性要求不那么严格的基于芯片的开发会采用前后台系统架构来进行开发,前后台系统前台由中断构成,后台由一个顺序处理任务的无限循环构成。//中断服务程序voidkeyHandle();voiduartHandle();//主函数intmain(intargc,char**argv){BSP......
  • 阿里云云原生弹性方案:用弹性解决集群资源利用率难题
    作者:赫曦随着上云的认知更加普遍,我们发现除了以往占大部分的互联网类型的客户,一些传统的企业,一些制造类的和工业型企业客户也都开始使用云原生的方式去做IT架构的转型,提高集群资源使用率也成为企业上云的一致共识。大家上云的同时,开始思考有没有云原生的方法能**更好地实现提高......
  • 数组篇-其之一-数组的概念与一维数组
    本文中使用到的工具是IntellijIDEA和JDK8,需要安装两款工具的小伙伴请查看这两篇教程:点我查看安装JDK8教程、点我查看安装IntellijIDEA教程。假设我想在某宝上买一点零食(没错,我承认我确实是个吃货),经过搜索后出现了如下结果,我们发现每一项都包含相同内容:图片、标题、价格、购......
  • (五):ElasticSearch基本概念
    1、ElasticSearchElasticsearch是面向文档(documentoriented)的,这意味着它可以存储整个对象或文档(document)。然而它不仅仅是存储,还会索引(index)每个文档的内容使之可以被搜索。在Elasticsearch中,你可以对文档(而非成行成列的数据)进行索引、搜索、排序、过滤。Elasticsearc......
  • galera集群启服务脚本,根据需求可自改
    这么个玩意儿废了我小半天儿,学如逆水行舟啊[root@galera1shell_scripts]#catstartdb.sh##host_list={galera1,galera2,galera3}echo"taskstartat:$(date+%Y-%m-%d_%H:%M:%S)"bootstrap_tmpfile=/tmp/.db_stat.$(date+%Y%m%d%H%M)stop_db(){sshgalera3......
  • Spring 事务的概念
    ①什么是事务数据库事务(transaction)是访问并可能操作各种数据项的一个数据库操作序列,这些操作要么全部执行,要么全部不执行,是一个不可分割的工作单位。事务由事务开始与事务结束之间执行的全部数据库操作组成。②事务的特性A:原子性(Atomicity)一个事务(transaction)中的所......
  • Shell - 集群监控脚本合集
      node_heart_check.sh#!/bin/bashscriptPath=$(dirname"$0")foripin`cat/etc/hosts|grep主机名关键字|awk'{print$2}'`;do#ping命令返回3次,自行中断ping-c3${ip}if[$?-ne0];thenecho${ip}"通信异常">>......
  • k8s 核心概念 namespace、pod、deployment、service
    1、NamespaceNamespace是kubernetes系统中的一种非常重要资源,它的主要作用是用来实现多套环境的资源隔离或者多租户的资源隔离。k8s在集群启动之后,会默认创建几个namespace。[root@master~]#kubectlgetnamespaceNAMESTATUSAGEdefaultActive......
  • 阿里云 ACK One 新特性:多集群网关,帮您快速构建同城容灾系统
    近日,阿里云分布式云容器平台ACKOne[1]发布“多集群网关”[2](ACKOneMulti-clusterGateways)新特性,这是ACKOne面向多云、多集群场景提供的云原生网关,用于对多集群南北向流量进行统一管理。基于ACKOne多集群网关可以快速构建多集群应用的同城容灾系统,帮助企业以更简......