首页 > 其他分享 >ElasticSearch

ElasticSearch

时间:2024-03-26 14:30:34浏览次数:15  
标签:匹配 搜索引擎 Lucene 索引 搜索 ElasticSearch es

简介

        es是一个高度可伸缩的开源全文搜索引擎,es让你可以快速,实时地存储,搜索和分析大量数据,它通常作为互联网应用的内部搜索引擎,为需要复杂搜索功能的应用提供支持。

        es是一个基于Lucene的搜索服务器 。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口,es使用java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。

使用场景

        电商搜索引擎,使用es存储商品与品类信息,提供搜索和搜索建议功能。

日志系统,收集,分析日志数据,可以使用Logstash(es,logstash,kibana 栈的一部分)来收集,然后将这些数据提供给es,通过搜索和聚合计算挖掘有价值的信息,最后用过kibana进行可视化展示。

        价格提醒平台,在价格变动时,让用户可以收到通知,抓取供应商的价格,推入es,并使用反向搜索(Percolator)功能来匹配用户的价格通知设置,找到匹配后将提醒推送给用户。

BI(商业智能),分析业务大数据,挖掘有价值的商务信息,可以使用es来存储数据,然后使用kibana(es,logstash,kibana 堆栈的一部分)构建自定义仪表板,该仪表板可以可视化显示数据,此外,还可以使用es聚合功能对数据执行复杂的业务智能分析。

es与其它数据存储进行比较

es的特点

        1:天然分片,天然集群

es把数据分成多个shard,下图中的PO-P2,多个shard可以组成一份完整的数据,这些shard可以分布在集群中的各个机器节点中,随着数据的不断增加,集群可以增加多个分片,把多个分片放到多个机子上,已达到负载均衡,横向扩展

        在实际运算过程中,每个查询任务提交到某一个节点,该节点必须负责将数据进行整理汇聚,再返回给客户端,也就是一个简单的节点上进行map计算,在一个固定的节点上进行reduces得到最终结果向客户端返回。

这种集群分片的机制造就了es强大的数据容量及运算扩展性。

        天然索引

es所有数据都是默认进行索引的,这点和mysql正好相反,mysql是默认不加索引,要加索引必须特别说明,es只有不加索引才需要说明。

而es使用的是倒排索引和MySQL的b+tree不同。

传统性数据库

弊端

        对于传统的关系性数据库对于关键词的查询,只能逐字逐行的匹配,性能非常差。

        匹配方式不合理,比如搜索“小蜜手机”,如果用like进行匹配,根本匹配不到。

        但是考虑使用者的用户体验的话,除了完全匹配的记录,还应该显示一部分近似匹配

        的记录,至少应该匹配到“手机”。

倒排索引是怎么处理的

        全文搜索引擎目前主流的索引技术就是倒排索引的方式

        传统的保存数据的方式都是:记录——》单词

而倒排索引的保存数据的方式是:单词——》记录,基于分词技术构建倒排索引,每个记录保存数据时,都不会直接存入数据库,系统先会对数据进行分词,然后以倒排索引结构保存。

如下:

搜索“红海行动”,那么搜索引擎时如何能将两者匹配上的呢?

        等到用户搜索的时候,会把搜索的关键词也进行分词,会把“红海行动”分词分成:红海和行动两个词。

        这样的话,先用红海进行匹配,得到id'=1和id=2的记录编号,再用行动匹配可以迅速定位id为1,3的记录。

        那么全文索引通常还会根据匹配程度进行划分,显然1号记录能匹配的此数更多。

所以显示的时候以评分进行排序的话,1号记录会排到最前面,而2,3号记录也可以匹配到。

➢ 索引结构对比 Lucene 倒排索引结构 可以看到Lucene为倒排索引部分又增加一层Term index结构,用于快速定位,而这term index是缓存在内存中,但mysql的B+tree不在内存中,所以整体来看es速度更快,但同时也更消耗资源(内存,磁盘)。

Lucene,Nutch,ElastisSearch关系

        1998年9月4日,Google公司在美国硅谷成立,正如大家所知,正如大家所知,它是一家做搜索引擎起家的公司

        同时期,一位名叫Doug Cutting的美国工程师,也迷上了搜索引擎,他基于java语言开发了一个用于文本搜索的函数库(可以理解为软件的功能组件),叫做Lucene。

Lucene是第一个提供全文文本搜索的函数库,提供了一个简单而强大的应用程序接口,是一个高性能,可伸缩的信息搜索库。作为一个成熟免费的开源项目,Lucene在java信息检索程序库中得到了广泛的欢迎,开发者不仅能利用它构建 具体的全文检索引用,同时还能将其集成到各种系统软件中,它提供的很多API函数都能运用到各种实际应用程序中,

Nutch则是Doug在Lucene基础上将开源思想继续深化的成果,是一个真正的应用程序,它是建立在Lucene核心之上的web搜索的实现,其目的旨在减少人们使用过程中的复杂度,并在花费很少的情况下配置世界一流的web搜索引擎,实现开箱即用的特性,站内索引和搜索推广到全球网络的搜索上,就像Goole和雅虎一样。

ElasticSearch,简称为es,es是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储,检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据,es也使用java开发并使用java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。

DB Engines 统计的数据库排名情况,在2016年1月,Es已超过Solr等成为排名第一的搜索引擎类应用

关于ES的起源,他说当年他还是一个待业工程师,跟随自己的新婚妻子来到伦敦,妻子想在伦敦学习做一名厨师,而自己则想为妻子开发一个搜索菜谱的应用,所以才接触到Lucene。

        直接使用Lucene构建搜索又很多问题,包含大量重复性的工作,所以Shay Banon便在Lucene的基础上不断地进行抽象,让java程序嵌入搜索变得更容易,经过一段时间的打磨便诞生了

他的第一个开源作评“Compass”,中文即“指南针”的意思。之后他找到了一份面对高性能分布式开发环境的新工作,在工作中他渐渐发现越来越需要一个易用的,高性能,实时,分布式搜索服务,于是决定重写Compass,将它从一个库打造成了一个独立的server,并创建了Elasticsearch。

思考:咱们之前说的处理分词,构建倒排索引,等等,都是这个叫Lucene的做的,那么能不能说这个Lucene就是搜索引擎呢?

        还不能,Lucene只是一个提供全文搜索功能类库的核心工具包,而真正使用它还需要一个完善的服务框架搭建起来的应用。

        好比Lucene是类似于发动机,而搜索引擎软件(es,solr)就是汽车。

        目前市面上流行的搜索引擎软件,主流的就两款,es和solr,这两款都是基于Lucene的搭建的,可以独立部署启动的搜索引擎服务软件,由于内核相同,所以两者除了服务器安装,部署,管理,集群以外,对于数据的操作,修改,添加,保存,查询等等都十分类似,就好像都是支持sql语言的两种数据库软件,只要学会其中一个另一个很容易上手。

        从实际企业使用情况来看,es的市场份额逐步在取代solr,国内百度,京东,新浪都是基于es

实现的搜索功能,国外就更多了,像维基百科,GitHub,等等也都是基于es的。

es的介绍到此就结束了,下期为大家带来es安装,部署及使用,seeyou!

       

标签:匹配,搜索引擎,Lucene,索引,搜索,ElasticSearch,es
From: https://blog.csdn.net/weixin_64261178/article/details/137039179

相关文章

  • elasticsearch 组件基于单机的多实例集群
    声明:本示例主要作为测试用,生产请慎重。最近公司突发奇想,想让我们搞个单机多实例的es的集群,看看其性能咋样。通常来说,es作为搜索引擎,应用场景不乏日志分析、网络安全、搜索引擎等,有时也会用作日志数据库使用,毕竟其出色的搜索查询性能,不是同等量级关系型数据库可以比拟的,主要......
  • Elasticsearch:使用在本地计算机上运行的 LLM 以及 Ollama 和 Langchain 构建 RAG 应用
    无需GPU的隐私保护LLM。在本博客中,我将演示使用不同的工具Ollama构建的RAG应用程序。与本文相关的所有源代码均已发布在github上。请克隆存储库以跟随文章操作。我们可以通过如下的方式来克隆:gitclonehttps://github.com/liu-xiao-guo/ollama_es什么是 Ollam......
  • ElasticSearch8 - SpringBoot整合ElasticSearch
    前言springboot整合ES有两种方案,ES官方提供的ElasticsearchJavaAPIClient和spring提供的[SpringDataElasticsearch](SpringDataElasticsearch)两种方案各有优劣Spring:高度封装,用着舒服。缺点是更新不及时,有可能无法使用ES的新APIES官方:更新及时,灵活,缺点是......
  • Elasticsearch 涉及的主要底层原理详解
    目录原理篇1.倒排索引原理2.文档写3.单个文档查询4.多个文档查询5.文档删除与更新6.集群组建7.集群选主8.集群数据读写如果你只是会用Elasticsearch而不了解它的运行机制,不是一个合格开发工程师。作为一名开发工程师,在掌握一项中间件的使用的同时,应该同时掌握该中间件的基本原......
  • ELK学习记录 - elasticsearch 7.9.1安装
    说明:以7.9.1版本为例,运行环境RockyLinuxrelease9.3elasticsearch下载:https://mirrors.huaweicloud.com/elasticsearch/7.9.1/elasticsearch-7.9.1-linux-x86_64.tar.gz解压:$tar-xfelasticsearch-7.9.1-linux-x86_64.tar.gz修改配置文件:$cdelasticsearch-7.9.1/$vi......
  • ElasticSearch的安装(Linux版)
    1.获取安装资源(文末有文件)https://www.elastic.co/cn/downloads/elasticsearch2.上传文件并解压cd/opttar-xfelasticsearch-7.8.0-linux-x86_64.tar.gzrm-rfelasticsearch-7.8.0-linux-x86_64.tar.gz3.创建普通用户并授权#新增user用户useradduser......
  • 2023-5-11-elasticsearch使用
    索引操作、数据操作索引操作索引的创建、删除等创建索引PUT/shopping{"acknowledged":true,"shards_acknowledged":true,"index":"shopping"}获取索引详细信息GET/_cat/indices?vhealthstatusindexuuid......
  • Docker-compose安装Elasticsearch启动报错(挂载volume后)
    错误提示:"stacktrace":["org.elasticsearch.bootstrap.StartupException:ElasticsearchException[failedtobindservice];nested:AccessDeniedException[/usr/share/elasticsearch/data/nodes];"docker-compose.yamldocker-compose.yamlversion:......
  • elasticsearch 6.8 常用数据字段类型
    在es中,字段类型主要有以下几种:ArraysBinarydatatypeRangedatatypesBooleandatatypeDatedatatypeGeo-pointdatatypeGeo-ShapedatatypeIPdatatypeKeyworddatatypeNesteddatatypeNumericdatatypesObjectdatatypeTextdatatypeTokencountdatatypePercol......
  • MAC安装elasticsearch-head插件
    1.下载插件源码gitclonehttps://github.com/mobz/elasticsearch-head.git2.进入文件夹npminstall3.安装npminstall4.启动npmrunstart5.访问http://localhost:910......