首页 > 其他分享 >Easysearch 容量规划建议

Easysearch 容量规划建议

时间:2023-10-27 14:34:42浏览次数:35  
标签:存储 容量 Easysearch 数据 搜索 内存 线程 规划 节点

基于容量估算

主要问题:

  • 每天将索引多少原始数据(GB)?保留数据多少天?
  • 原始数据膨胀率
  • 您将强制执行多少个副本分片?
  • 您将为每个数据节点分配多少内存?
  • 您的内存:数据比例是多少?

原则

  • 保留 +15% 以保持在磁盘水位以下。
  • 保留 +5% 用于误差和后台活动的余量。
  • 保留相当于一个数据节点的资源来处理故障。

公式:

总数据量 GB = 原始数据 GB/天 * 保留天数 * 膨胀率 * (副本数 + 1)

总存储 GB = 总数据 GB * 1.15(包括磁盘 watermark threshold 和误差范围)

总数据节点数 = ROUNDUP(总存储 GB / (每个数据节点的内存 * 内存/数据比例)) + 1(用于故障转移)

举例:

假设 需要存储的源数据 50TB 大小

膨胀率 10% 副本数 1

每个节点 256G 内存

计算出:

总数据量 TB

= 50TB * (1 + 0.10) * (1 + 1)

= 110TB

总存储 TB

= 110TB * 1.15(考虑磁盘 watermark threshold 和误差范围)

= 126.5TB

如果有 256GB 的物理内存,128GB 会用于 JVM 堆,剩下的 128GB 将用于操作系统、文件缓存和其他系统进程。

按照常见的 1:30 的 RAM 到磁盘比例来计算,那么每个节点能处理的数据存储大约是:

256GB 内存 * 30 = 7680GB,大约等于 7.68TB

总数据节点数

= ROUNDUP(126.5TB / 7.68TB) + 1(用于故障转移)

= ROUNDUP(16.47) + 1

= 18

基于搜索吞吐量估算

在存储容量层面之外,还要考虑搜索响应时间和搜索吞吐量的目标,这些目标可能需要更多的内存和计算资源。

搜索响应时间受太多变量的影响,无法预测任何给定容量计划会如何影响它。但通过经验性测试搜索响应时间并估计预期的搜索吞吐量,我们可以估算出满足这些需求所需的集群资源。

主要问题:

  • 你每秒的最高搜索次数是多少?
  • 你的平均搜索响应时间(毫秒)是多少?
  • 你的数据节点上有多少个核心和每个核心有多少个线程

经验方法:

与其确定资源将如何影响搜索速度,不如将搜索速度视为一个常数,通过在计划的硬件上进行测量来处理。然后确定集群需要多少个核心来处理预期的搜索吞吐量峰值。最终目标是防止线程池队列增长速度超过它们被消耗的速度。如果计算资源不足,搜索请求有被丢弃的风险。

公式:

峰值线程数 = 向上取整(每秒的峰值搜索次数 * 平均搜索响应时间(毫秒) / 1000 毫秒)

线程池大小 = 向上取整((每个节点的物理核心数 * 每个核心的线程数 * 3 / 2) + 1)

总数据节点数 = 向上取整(峰值线程数 / 线程池大小)

举例:

假设每秒 2 万搜索请求,平均响应时间 50 毫秒,每个节点有 16 个线程数,计算需要多少节点

峰值线程数 = 20000 * 50 /1000 = 1000

线程池大小 = (16 * 1 * 3/2) + 1 = 25

总数据节点数 = 1000 / 25 = 40

大概需要 40 个数据节点来处理每秒 2 万的搜索请求,平均响应时间为 50 毫秒,每个节点有 16 个线程。这是一个粗略的估计,实际需求可能会因多种因素而有所不同。建议进行实际测试以确认这些数字。

Hot, Warm, Frozen

根据索引使用情况不同,通常分为种存储。
这是一种经济高效的方法,用于存储大量数据,同时优化了对较新数据的性能。在容量规划期间,每个层次必须独立进行规模确定,然后进行合并。

层面 目标 示例存储 示例内存:存储比
Hot 搜索为主 SSD DAS/SAN (>200Gb/s) 1:30
Warm 存储为主 HDD DAS/SAN (~100Gb/s) 1:100
Frozen 存档为主 Cheapest DAS/SAN (<100Gb/s) 1:500

实际情况要把搜索吞吐量估算和容量估算结合考虑。

标签:存储,容量,Easysearch,数据,搜索,内存,线程,规划,节点
From: https://www.cnblogs.com/infinilabs/p/17792232.html

相关文章

  • Easysearch 容量规划建议
    基于容量估算主要问题:每天将索引多少原始数据(GB)?保留数据多少天?原始数据膨胀率您将强制执行多少个副本分片?您将为每个数据节点分配多少内存?您的内存:数据比例是多少?原则保留+15%以保持在磁盘水位以下。保留+5%用于误差和后台活动的余量。保留相当于一个数据节点的资源来处理故障......
  • 运维平台规划体系全介绍
    识别运维平台的边界在哪儿,才能更好的构建平台,从而协助运维的日常工作。在之前的文章中,谈到过【运维的本质--可视化】,在可视化的篇幅中,着重介绍自动化的可视化和数据的可视化;在后续的篇章中又介绍了【互联网运维的价值体系】,里面分解了几个维度:质量、成本、效率、安全等。以上都是......
  • Bluetooth SIG规划中的新功能简介
    原文https://mp.weixin.qq.com/s/VkgWb5odpoh0OemlkZW5Bw以下是当前正在进行的几个关键规范项目的概述[详细参考1]。更高频段(远)HFB (Higher Frequency Bands)目前正在进行一个规范开发项目是 Higher Frequency Bands,定义低功耗蓝牙@使用其他未经许可的频谱(包括6GHz频段......
  • SOA与大数据实战:企业私有云平台规划和建设pdf电子版 何明璐 / 邹海锋
    SOA与大数据实战:企业私有云平台规划和建设pdf电子版下载作者:何明璐/邹海锋出版年: 2020-7ISBN: 9787302530695连接提取码:5f14介绍了传统企业推进私有云平台建设的一整套指导方法和实践步骤。通过先架构再实战,学习企业IT架构转型与架构设计方面能有一个循序渐进的过程和方法指......
  • 浅谈动态规划——01背包
    本文暂时不谈记忆化搜索先看例题P1048采药(其实就是个加了题目背景的01背包板子题)我知道你可能不想读题,所以我把题意写在这里了题意你总共有T的时间有n个物品,第i个物品的价值为w[i],拿走它消耗的时间为v[i],且每个物品只能拿一次计算出能拿取的物品的最大总价值我猜你会这......
  • 动态规划法
        ......
  • 1402. 做菜顺序(前缀和、公式变形、动态规划、贪心)
     首先本题可以抽象为从原数组中选出一些子数组,并让这些子数组的(i)*a[i]的和最大解法:将原数组从大到小排序f[i]=i*a1+(i-1)*a2+...f[i-1]=(i-1)*a1+(i-2)*a2+...f[i]=f[i-1]+(a1+a2+....)//加上一个前缀和classSolutio......
  • 网络规划设计师真题解析--内存编址
    内存按字节编址,利用8K×4bit的存储器芯片构成84000H到8FFFFH的内存,共需()片。A.6      B.8      C.12      D.24答案:C解析:8FFFFH-84000H+1=C000HC000H转换成十进制:C*163+0*162+0*161+0*160=12*163=12*16*16*16=12*4*4*256=48*1024=48KC000H*8bit=48K*8bit(48......
  • INFINI Labs 产品更新 | Easysearch 优化字段压缩提升写入速度,Console 优化数据迁移和
    INFINILabs产品又更新啦~。本次更新概要如下:Easysearch增强source_reuse压缩功能,并大幅提升写入速度;Console优化了数据迁移和校验功能,新增了通用的数据列表和下拉等标准组件,化繁为简,实现可复用。以下是本次更新的详细说明。INFINIEasysearchv1.6.1INFINIEasysearch是......
  • 游戏开发者如何规划职业方向
    多小伙伴留言问我,进入游戏这个行业以后, 如何做好自己的职业规划与技术路线,本节来給大家分享一些规划的经验。对于入行的开发者,給大家一个分享”一个必须与2个方向”。(1) 必须: 工作1~5年时间内搭建关于游戏开发的全部知识体系与技术原理;(2) 方向:走技术专家路线;(3) ......