首页 > 其他分享 >56_初识搜索引擎_内核级知识点之doc value初步探秘

56_初识搜索引擎_内核级知识点之doc value初步探秘

时间:2024-10-02 13:03:15浏览次数:1  
标签:知识点 56 doc2 doc doc1 索引 world hello

搜索的时候,要依靠倒排索引;排序的时候,需要依靠正排索引,看到每个document的每个field,然后进行排序,所谓的正排索引,其实就是doc values

在建立索引的时候,一方面会建立倒排索引,以供搜索用;一方面会建立正排索引,也就是doc values,以供排序,聚合,过滤等操作使用

doc values是被保存在磁盘上的,此时如果内存足够,os会自动将其缓存在内存中,性能还是会很高;如果内存不足够,os会将其写入磁盘上

doc1: hello world you and me
doc2: hi, world, how are you

word doc1 doc2

hello *
world * *
you * *
and *
me *
hi *
how *
are *

hello you --> hello, you

hello --> doc1
you --> doc1,doc2

doc1: hello world you and me
doc2: hi, world, how are you

sort by age

doc1: { "name": "jack", "age": 27 }
doc2: { "name": "tom", "age": 30 }

document name age

doc1 jack 27
doc2 tom 30

标签:知识点,56,doc2,doc,doc1,索引,world,hello
From: https://www.cnblogs.com/siben/p/18444581

相关文章

  • 63_索引管理_内核级知识点:深入探秘type底层数据结构
    type,是一个index中用来区分类似的数据的,类似的数据,但是可能有不同的fields,而且有不同的属性来控制索引建立、分词器field的value,在底层的lucene中建立索引的时候,全部是opaquebytes类型,不区分类型的lucene是没有type的概念的,在document中,实际上将type作为一个document的field来......
  • Docker配置代理访问网络ubuntu24.04
    本文将详细介绍如何根据系统代理配置,正确设置Docker的代理环境变量,使其能够通过代理服务器进行网络访问。一、查看系统代理配置首先,我们查看了系统的代理配置:以下是图片内容的文字描述:Proxy设置NetworkProxy:已开启Configuration:手动(Manual)HTTPProxyURL:12......
  • Linux 安装 docker-compose
    原文:linux安装docker-compose(官网教程)要在Linux上安装DockerCompose命令,可以按照以下步骤进行操作:下载DockerCompose的可执行文件。可以使用以下命令下载最新版本:sudocurl-L"https://github.com/docker/compose/releases/latest/download/docker-compose-$(un......
  • 28_分布式文档系统_阶段性总结以及什么是distributed document store
    1、阶段性总结1~8讲:快速入门了一下,最基本的原理,最基本的操作9~13讲:在入门之后,对ES的分布式的基本原理,进行了相对深入一些的剖析14~27讲:围绕着document这个东西,进行操作,进行讲解和分析2、什么是distributeddocumentstore到目前为止,你觉得你在学什么东西,给大家一个直观的感觉......
  • 29_分布式文档系统_深度图解剖析document数据路由原理
    (1)document路由到shard上是什么意思?(2)路由算法:shard=hash(routing)%number_of_primary_shards举个例子,一个index有3个primaryshard,P0,P1,P2每次增删改查一个document的时候,都会带过来一个routingnumber,默认就是这个document的_id(可能是手动指定,也可能是自动生成)routing=_i......
  • 32_分布式文档系统_document查询内部原理图解揭秘
    1、客户端发送请求到任意一个node,成为coordinatenode2、coordinatenode对document进行路由,将请求转发到对应的node,此时会使用round-robin随机轮询算法,在primaryshard以及其所有replica中随机选择一个,让读请求负载均衡3、接收请求的node返回document给coordinatenode4、coor......
  • 17_document的全量替换、强制创建以及图解lazy delete机制
    1、document的全量替换2、document的强制创建3、document的删除1、document的全量替换(1)语法与创建文档是一样的,如果documentid不存在,那么就是创建;如果documentid已经存在,那么就是全量替换操作,替换document的json串内容(2)document是不可变的,如果要修改document的内容,第一种......
  • Codeforces Round 956 (Div. 2)
    无法评价,不知道是我傻逼还是题傻逼。A.ArrayDivisibility题意让你构造一个长度为\(n\)的序列,满足对于每一个\(i\)\((i\in[1,n])\),让\(a_j\)之和为\(i\)的倍数,\(j\)能被\(i\)整除。换句话说,让你构造一个长度为\(n\)的序列,满足\(\sum_{j|i}a_j\)能被\(i\)......
  • 14_初步解析document的核心元数据以及图解剖析index创建反例
    1、_index元数据2、_type元数据3、_id元数据{"_index":"test_index","_type":"test_type","_id":"1","_version":1,"found":true,"_source":{"test_content":&quo......
  • 15_document id的手动指定与自动生成两种方式解析
    1、手动指定documentid2、自动生成documentid1、手动指定documentid(1)根据应用情况来说,是否满足手动指定documentid的前提:一般来说,是从某些其他的系统中,导入一些数据到es时,会采取这种方式,就是使用系统中已有数据的唯一标识,作为es中document的id。举个例子,比如说,我们现在在......