Elasticsearch在项目中的使用

时间：2023-08-14 22:25:09浏览次数：34

标签：项目使用 10100 查询索引 Elasticsearch 分片 2.3 节点

一.mysql和es的比较

1.mysql适合存储海量的数据，但是某些情况下的查询效率过低。

正常可以通过添加索引等加快查询速度，但是模糊查询的时候效率很低，会触发全局扫描

SELECT * FROM product WHERE title like '%优惠券%'

2.基于 Lucene 引擎构建的开源分布式搜索分析引擎，可以提供针对 PB 数据的近实时查询，广泛用在全文检索、日志分析、监控分析等场景

主要使用了倒排索引来加快查询速度。

a.查询fury的文档，使用正排索引需要全局扫描，然后挨个比较查找是否有这个单词。

b.使用倒排索引，查询到fury需要2次，一次定位到两个id，再根据id确认具体数据

3.es是分布式架构，

一个 ES 集群由多个 node 节点组成，每个 index 是以分片(Shard，index 子集)的数据存在于多个 node 节点上的。

这样的话当一个查询请求进来，分别在各个 node 查询相应的结果并整合后即可，将查询压力分散到多个节点，避免了单个节点 CPU，磁盘，内存等处理能力的不足。

另外当新节点加入后，会自动迁移部分分片至新节点，实现负载均衡，这个功能是 ES 自动完成的，是使用zookeeper实现

ZooKeeper 能够在 Elasticsearch 集群中实现以下功能：

节点发现：它允许节点发现其他节点的存在，并与它们通信。
节点管理：它允许管理员在不影响其他节点的情况下对节点进行管理。
集群状态管理：它允许集群状态的变化被快速检测和响应。

二.项目中的实际应用

背景：需要对每天百万以上的数据进行利润的分类，前端需要按照分类进行分页查询。

分类的字段是一个字段，一个订单可能对应到多个分类，若优惠券，异常件，因此前端使用的是模糊匹配，在mysql中查询效率会很低。

而且数据一般可以查询到仅3个月内数据，按照每天百万来说，数据量也接近1亿。

2.1 使用from+size分页

from + size大于10000的时候，就会出现问题

2.2 深度分页

分布式数据库不同于单机数据库，数据是被分散保存在每个分片中的，无法保证要查询的这一百位学员的成绩一定都在某一个分片中，结果很有可能是存在于每个分片。换句话说，你从任意一个分片中取出的前10100位学员的成绩，都不一定是总成绩的前10100。更不幸的是，唯一的解决办法是从每个分片中取出当前分片的前10100名学员成绩，然后汇总成50500条数据再次排序，然后从排序后的这50500个成绩中查询前10100的成绩，此时才能保证一定是整个索引中的成绩的前10100名。

实际上需要进行两次排序，先从各自的分片中找出10100，然后在堆内存中进行二次排序，若是深度更大，容易造成oom的问题，因此设置max_result_window为10000。

2.3解决方案

2.3.1 避免深度分页，取消跳页，只能下一页点击

2.3.2 Scroll Search

2.3.3 Search After

引用

https://www.51cto.com/article/656071.html

https://blog.csdn.net/wlei0618/article/details/120800632

标签：项目,使用,10100,查询,索引,Elasticsearch,分片,2.3,节点
From： https://www.cnblogs.com/developS/p/17629921.html

知识付费到底使用哪个平台好，网课平台兔知云课堂源码
知识付费平台分成两类。一类是学浪就是抖音的亲儿子，还有一类是所谓的第三方小程序平台，大多数的老师呢还是选择学浪，有的老师没办法入住，一些课程我们选择第三方平台。那么这两个到底有什么样的区别，或者优缺点呢？我们来对比一下。首先雪浪的优点呢就是首先是免费，另外课程录好之后，我......
如何在工作中利用Prompt高效使用ChatGPT?
导读AI不是来替代你的，是来帮助你更好工作。用betterprompt使用chatgpt，替换搜索引擎，让你了解如何在工作中利用Prompt高效使用ChatGPT。01背景现在GPT已经开启了人工智能狂潮，不过是IT圈，还是金融圈。一开始，我觉的它就是一个增强版搜索引擎，在使用了一段时间之后，才发现它......
c++20 format基本使用
下面代码是一个使用format的例子#include<iostream>#include<cmath>#include<format>intmain(){doubleprincipal{1000};doublerate{0.5};std::cout<<std::format("Initialprincipal:{:>7.2f}\n",principal);......
在树莓派上使用Dockers运行Openwrt并作为主路由器的旁路由
开启网卡混杂模式sudoiplinkseteth0promiscon首先需要新建一个/etc/rc.local并添加可执行权限sudotouch/etc/rc.localsudochmod+x/etc/rc.local内容如下：#!/bin/sh-e#/etc/rc.local##rc.local##Thisscriptisexecutedattheendofeachmultiuserrunlevel......
使用 JScript 查找操作系统名称/版本
varwbemFlagReturnImmediately=0x10;varwbemFlagForwardOnly=0x20;varobjWMIService=GetObject("winmgmts:\\\\.\\root\\CIMV2");varcolItems=objWMIService.ExecQuery("SELECT*FROMWin32_OperatingSystem","WQL",......
Java 日志系列：JUL 使用和原理分析
目录一、简介二、使用三、日志级别四、Logger继承关系五、配置文件六、原理解析一、简介JUL全称JavautilLogging是java原生的日志框架，使用时不需要另外引用第三方类库，相对其他日志框架使用方便，学习简单，能够在小型应用中灵活使用。Loggers：被称为记录器，应用程序通过获......
项目创建及依赖
pom.xml<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://mav......
MySQL 使用表的自联结，lag，lead得到该行记录所在连续段长度
目录题目地址代码题目地址https://leetcode.cn/problems/human-traffic-of-stadium/description/代码##WriteyourMySQLquerystatementbelow##本质上就是连续签到问题呗#SELECTVersion()#8.0.33，用户变量编程用不了witht1as(SELECT*fromstadium......
NLP文本匹配任务Text Matching 有监督训练：PointWise（单塔）、DSSM（双塔）、Sentence BERT（双
NLP文本匹配任务TextMatching[无监督训练]：SimCSE、ESimCSE、DiffCSE项目实践文本匹配多用于计算两个文本之间的相似度，该示例会基于ESimCSE实现一个无监督的文本匹配模型的训练流程。文本匹配多用于计算两段「自然文本」之间的「相似度」。例如，在搜索引擎中，我们通常需要判断......
抽象类在项目中的实际应用
一.抽象类和接口的区别？1.接⼝的⽅方法默认是public，所有⽅方法在接⼝口中不不能有实现(Java8开始接⼝口⽅方法可以有默认实现），⽽而抽象类可以有⾮非抽象的⽅方法。2.接⼝口中除了了static、final变量量，不不能有其他变量量，⽽而抽象类中则不不⼀一定。3.⼀一个类可以实现多个接⼝口，但......

Elasticsearch在项目中的使用

相关文章

赞助商

阅读排行