首页 > 其他分享 >在 Elasticsearch 中段(Segment)的组成部分

在 Elasticsearch 中段(Segment)的组成部分

时间:2024-09-22 11:50:18浏览次数:3  
标签:存储 词项 中段 索引 Elasticsearch 文档 Segment

在 Elasticsearch 中,一个索引由多个**分片(Shard)**组成,而每个分片又由多个**段(Segment)**构成。段是索引的最小搜索单元,是不可变的,一旦创建,其内容就不会再改变。以下是段(Segment)的组成部分:

1. **倒排索引(Inverted Index)**:这是 Elasticsearch 用来实现快速搜索的核心数据结构。它包括一个词项字典,记录了每个词项在文档中出现的位置和频率。

2. **正排索引(Forward Index)**:与倒排索引相对应,正排索引存储了文档的内容和元数据,以及词项在文档中的位置。

3. **文档存储(Document Store)**:存储了文档的原始数据,可以用于返回搜索结果。

4. **删除标记(Delete Markers)**:记录了哪些文档被标记为删除,但实际数据仍然保留在段中,直到段被合并。

5. **字段统计(Field Statistics)**:记录了字段级别的统计信息,如词项频率等。

6. **词汇表(Term Dictionary)**:包含了索引中所有唯一词项的列表。

7. **词项位置(Term Positions)**:记录了词项在文档中的位置信息。

8. **词项频率(Term Frequencies)**:记录了词项在文档中出现的频率。

9. **归一化值(Norms)**:用于存储文档的字段长度的归一化信息,用于影响搜索的相关性评分。

10. **存储信息(Stored Fields)**:存储了文档中需要被检索但不需要被索引的字段信息。

11. **压缩数据**:为了节省存储空间,段中的数据通常会被压缩存储。

12. **段的元数据**:包含了段的版本信息、创建时间等元数据信息。

当文档被索引或更新时,Elasticsearch 会创建新的段。随着时间的推移,段的数量可能会增加,这会影响搜索性能。因此,Elasticsearch 会定期进行**段合并(Segment Merging)**操作,将多个小的段合并成大的段,以优化搜索性能和存储效率。
 

标签:存储,词项,中段,索引,Elasticsearch,文档,Segment
From: https://blog.csdn.net/xintai1999/article/details/142300146

相关文章

  • ORA-01558: out of transaction ID’s in rollback segment SYSTEM
    联系:手机/微信(+8617813235971)QQ(107644445)标题:ORA-01092ORA-00604ORA-01558故障处理作者:惜分飞©版权所有[未经本人同意,不得以任何形式转载,否则有进一步追究法律责任的权利.]客户一个11.2.0.1的库,在重启之前报ORA-00604和ORA-01558:outoftransactionID’sinrol......
  • Elasticsearch 应用实战:从基础到高级实践
    引言Elasticsearch是一个开源的实时分布式搜索和分析引擎,基于ApacheLucene构建,广泛应用于日志分析、全文检索、数据可视化等场景。本文将探讨Elasticsearch的基本概念、安装与配置、以及实际应用案例,以帮助开发者更好地理解和利用这一强大的搜索引擎。更多内容,请查阅1.......
  • 【Elasticsearch系列十七】索引 index
    ......
  • ElasticSearch的搜索方式
    目录目录前言数据准备文档搜索一、查询所有文档二、全文检索(1)全文检索(2)自动纠错三、范围搜索四、短语检索五、单词/词组搜索六、复合搜索前言数据准备PUT/students{"mappings":{"properties":{"id":{"type":"integer",......
  • elasticsearch实战应用
    Elasticsearch是一个基于Lucene的分布式、实时全文搜索引擎,广泛应用于日志收集和可视化、数据分析以及大规模数据检索等领域。其强大的搜索和分析能力,使得Elasticsearch成为许多企业和开发者在处理大规模数据时的首选工具。以下将从Elasticsearch的实战应用、应用场景、性能......
  • Algolia 与 Elasticsearch:选择正确的搜索解决方案
    搜索功能对于现代网站和应用程序至关重要。无论您是构建电子商务网站、媒体平台还是saas产品,为用户提供快速、相关的搜索体验都可以显着增强可用性。两个最受欢迎的搜索解决方案是algolia和elasticsearch。本文将探讨这些工具是什么、何时以及为何选择其中一个工具,以及如何在项......
  • 1.1 elasticsearch分布式集群基本搭建(centos7.x + elaticsearch7.11.1)
    【1】分布式分片集群基础概念【1.1】ES的分布式集群有什么用?高可用高可用(HighAvailability)是分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计减少系统不能提供服务的时间。如果系统每运行100个时间单位,会有1个时间单位无法提供服务,我们说系统的可用性是9......
  • MySQL与Elasticsearch的全量同步和增量同步
    一、什么是Dbsyncer1、介绍Dbsyncer是一款开源的数据同步中间件,提供MySQL、Oracle、SqlServer、PostgreSQL、Elasticsearch(ES)、Kafka、File、SQL等同步场景,支持上传插件自定义同步转换业务,提供监控全量和增量数据统计图、应用性能预警等。2、特点1、组合驱动,自定义库同......
  • Elasticsearch 分片迁移与移除集群节点操作
    Elasticsearch分片迁移与移除集群节点操作问题背景在单台服务器上部署了7个Elasticsearch节点,分别为es-node1到es-node7,端口从9201到9207。每个节点都承载大量数据,但没有设置副本分片。由于多个节点共享同一台服务器的硬件资源,复杂查询时会导致CPU占用率达到......
  • 【Elasticsearch系列】Elasticsearch中的分页
    ......