elasticsearch中倒排索引详解

时间：2022-11-25 15:34:52浏览次数：84

标签：匹配倒排 quick fox 索引详解文档 Quick elasticsearch

概念

Elasticsearch使用一种叫做倒排索引(inverted index)的结构来做快速的全文搜索。倒排索引由在文档中出现的唯一的单词列表，以及对于每个单词在文档中的位置组成。

示例

我们有两个文档，每个文档 content 字段包含：

1. The quick brown fox jumped over the lazy dog

2. Quick brown foxes leap over lazy dogs in summer

为了创建倒排索引，我们首先切分每个文档的 content 字段为单独的单词（我们把它们叫做词(terms)或者表征(tokens)），把所有的唯一词放入列表并排序，结果是这个样子的：

elasticsearch中倒排索引详解_倒排索引

现在，如果我们想搜索 "quick brown" ，我们只需要找到每个词在哪个文档中出现既可：

elasticsearch中倒排索引详解_字段_02

两个文档都匹配，但是第一个比第二个有更多的匹配项。如果我们加入简单的相似度算法(similarity algorithm)，计算匹配单词的数目，这样我们就可以说第一个文档比第二个匹配度更高——对于我们的查询具有更多相关性。

但是在我们的倒排索引中还有些问题：

1. "Quick" 和 "quick" 被认为是不同的单词，但是用户可能认为它们是相同的。

2. "fox" 和 "foxes" 很相似，就像 "dog" 和 "dogs" ——它们都是同根词。

3. "jumped" 和 "leap" 不是同根词，但意思相似——它们是同义词

上面的索引中，搜索 "+Quick +fox" 不会匹配任何文档（记住，前缀 + 表示单词必须匹配到）。只有 "Quick" 和 "fox" 都在同一文档中才可以匹配查询，但是第一个文档包含 "quick fox" 且第二个文档包含 "Quick foxes" 。

用户可以合理的希望两个文档都能匹配查询，我们也可以做的更好。

如果我们将词为统一为标准格式，这样就可以找到不是确切匹配查询，但是足以相似从而可以关联的文档。例如：

1. "Quick" 可以转为小写成为 "quick" 。

2. "foxes" 可以被转为根形式 ""fox 。同理 "dogs" 可以被转为 "dog" 。

3. "jumped" 和 "leap" 同义就可以只索引为单个词 "jump

现在的索引：

elasticsearch中倒排索引详解_搜索_03

但我们还未成功。我们的搜索 "+Quick +fox" 依旧失败，因为 "Quick" 的确切值已经不在索引里，不过，如果我们使用相同的标准化规则处理查询字符串的 content 字段，查询将变成 "+quick +fox" ，这样就可以匹配到两个文档。

这个表征化和标准化的过程叫做分词(analysis)，关于分词更多参考：https://www.phpmianshi.com/?id=163

标签：匹配,倒排,quick,fox,索引,详解,文档,Quick,elasticsearch
From： https://blog.51cto.com/u_6353447/5886793

【iOS-Cocos2d游戏开发之五】多触点与触屏事件详解（单一监听、事件分发）【11月28日更新
李华明Himi 原创,转载务必在明显处注明-----------------------------------本章补充开始！---------------------------------- 本篇对于多触......
elasticsearch中的基本概念和原理
基本概念和原理ES其实就是基于lucene之上封装的一个分布式索引框架,所以lucene拥有的特性,它都是有的,同时因为它是基于分布式的,所以对很多的功能进行了扩展,要想掌握ES,......
【iOS-Cocos2d游戏开发之十五】详解CCProgressTimer 进度条并修改cocos2d源码实现“理
李华明Himi 原创,转载务必在明显处注明游戏开发中难免用到进度条，例如做一些游戏技能的CD时间等都会使用到；那么cocos2d当然也封装了进度条，但是不......
个推TechDay直播回顾：详解数据指标体系设计与开发全流程|附视频及课件下载
科学完善的数据指标体系是企业开展数字化运营管理、打造数据驱动型组织的重要支撑。透过多维度的数据指标，运营人员能够清晰了解业务现状，产品/研发人员能够高效定位系统问题，......
【iOS-cocos2d-X 游戏开发之五】游戏存储之Cocos2dX自带CCUserDefault类详解；
本站文章均为李华明Himi 原创,转载务必在明显处注明本篇跟大家分享下Cocos2dX中的存储，其中也介绍些细节容易犯错的问题；在Cocos2dX中提供了自带存储类：CCUserDef......
个推TechDay治数训练营直播预告 | 从方法论到落地应用，详解企业标签体系建设要点
标签作为当下最普遍的数据资产类型之一，对企业洞察用户画像、开展精细化运营、实现智慧营销触达等具有重要的支撑作用。企业标签体系的建设并非一蹴而就的，需要结合业务视角进......
【iOS开发必收藏】详解iOS应用程序内使用IAP/StoreKit付费、沙盒（SandBox）测试、创建测
Himi 原创，欢迎转载，转载请在明显处注明！谢谢。//——2012-12-11日更新获取"产品付费数量等于0这个问题"的原因看到很多童鞋问到，为什么每次都返回数量等于0？？其实有童......
elasticsearch 之 histogram 直方图聚合
目录1.简介2.bucket_key如何计算3.有一组数据，如何确定是落入到那个桶中4、需求4.1准备mapping4.2准备数据5、histogram聚合操作5.1、根据response_time聚合，间隔为55.1......
c++之类和对象——类的定义，存储方式，this指针！（五千字长文详解！）
c++详解之类和对象——类的定义，存储方式，this指针！面向过程和面向对象初步认识面向过程：分析出求解问题的步骤，通过函数调用逐步解决问题面向对象：关注的是对象！讲一件事分成不......
虚基类详解-转
https://www.cnblogs.com/sunbines/p/9215687.html虚基类一、虚基类介绍多继承时很容易产生命名冲突，即使我们很小心地将所有类中的成员变量和成员函数都命名为不同的名......

elasticsearch中倒排索引详解

概念

示例

相关文章

赞助商

阅读排行