首页 > 其他分享 >全文索引:Apache Lucene(二)

全文索引:Apache Lucene(二)

时间:2023-04-10 10:23:24浏览次数:76  
标签:检索 lucene 关键字 全文索引 Lucene 索引 文档 Apache

  上一章我们讲述了Apache Lucene实现的核心代码,今天我们来梳理一下Lucene的相关概念以及Lucene索引。

  工欲善其事,必先利其器。Java常用的全文搜索引擎框架,通常是下面4个框架:

 

   为什么是Lucene呢?原因很简单,hibernate search、solr、elasticsearch 都是基于 lucene 拓展出来的搜索引擎。 

  Hibernate Search 是在 apache Lucene 的基础上建立的主要用于 Hibernate 的持久化模型的全文检索工具。

  Elasticsearch 也使用 Java 开发并使用 Lucene 作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的 RESTful API 来隐藏 Lucene 的复杂性,从而让全文搜索变得简单。

  Solr 它是一种开放源码的、基于 Lucene Java 的搜索服务器,易于加入到 Web 应用程序中。提供了层面搜索(就是统计)、命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 等格式)。

相关概念

  既然是全文搜索工具,肯定有一定的排序结构和规则。当我们输入关键字的时候,lucene 能安装内部的层次结构快速检索出我需要的内容。这里面会涉及几个层次和概念。

  索引库(Index)

  一个目录一个索引库,同一文件夹中的所有的文件构成一个 Lucene 索引库。类似数据库的表的概念。

  

  段(Segment)

  Lucene 索引可能由多个子索引组成,这些子索引称为段。每一段都是完整独立的索引,能被搜索。

  文档(Document)

  一个索引可以包含多个段,段与段之间是独立的,添加新文档可以生成新的段,不同的段可以合并。段是索引数据存储的单元。类似数据库内的行或者文档数据库内的文档的概念。

  域(Field)

  一篇文档包含不同类型的信息,可以分开索引,比如标题,时间,正文,作者等。类似于数据库表中的字段

  词(Term)

  词是索引的最小单位,是经过词法分析和语言处理后的字符串。一个Field由一个或多个Term组成。比如标题内容是“hello lucene”,经过分词之后就是“hello”,“lucene”,这两个单词就是Term的内容信息,当关键字搜索“hello”或者“lucene”的时候这个标题就会被搜索出来。

  分词器(Analyzer)

  一段有意义的文字需要通过Analyzer来分割成一个个词语后才能按关键词搜索。StandartdAnalyzer是Lucene中常用的分析器,中文分词有CJKAnalyzer、SmartChinieseAnalyzer等。

   

  上图大概可以这样理解,索引内部由多个段组成,当新文档添加进来时候会生成新的段,不同的段之间可以合并(Segment-0、Segment-1、Segment-2合并成Segment-4),段内含有文档号与文档的索引信息。而每个文档内有多个域可以进行索引,每个域可以指定不同类型(StringField,TextField)。

  所以,从图中可以看出,lucene的层次结构依次如下:索引(Index) –> 段(segment) –> 文档(Document) –> 域(Field) –> 词(Term)

  在上面我们了解了 lucene 的一些基本概念,接下来我们进入原理分析的环节。

  (为什么 lucene 搜索引擎查询这么快?)

倒排索引

  我们都知道要想提高检索速度要建立索引,重点就在这里,lucene使用了倒排索引(也叫反向索引)的结构。

  倒排索引(反向索引)自然就有正排索引(正向索引)。

  • 正排索引是指从文档检索出单词,正常查询的话我们都是从文档里面去检索有没这个关键字单词。

  • 倒排索引是指从单词检索出文档,与从正排索引是倒过来的概念,需要预先为文档准备关键字,然后查询时候直接匹配关键字得到对应的文档。

  有一句这样的总结:由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)

  

 

 

  假如现在有两个文档,内容分别是:

  • 文档1:home sales rise in July.

  • 文档2:increase in home sales in July.

  分析上图可知,首先文档经过分词器(Analyzer)分词之后,我们可以得到词(term),词和文档ID是对应起来的,接下来这些词集进行一次排序,然后合并相同的词并统计出现频率,以及记录出现的文档ID。

所以:

  实现时,lucene将上面三列分别作为词典文件(Term Dictionary)、频率文件(frequencies)、位置文件 (positions)保存。其中词典文件不仅保存有每个关键词,还保留了指向频率文件和位置文件的指针,通过指针可以找到该关键字的频率信息和位置信息。

  索引时,假设要查询单词 “sales”,lucene先对词典二元查找、找到该词,通过指向频率文件的指针读出所有文章号,然后返回结果。词典通常非常小,因而,整个过程的时间是毫秒级的。

构建索引与查询索引过程

  

  检索文件之前先要建立索引,所以上图得从“待检索文件”节点开始看。

  构建索引过程:

    1、为每一个待检索的文件构建Document类对象,将文件中各部分内容作为Field类对象。

    2、使用Analyzer类实现对文档中的自然语言文本进行分词处理,并使用IndexWriter类构建索引。

    3、使用FSDirectory类设定索引存储的方式和位置,实现索引的存储。

  检索索引过程:

    4、使用IndexReader类读取索引。

    5、使用Term类表示用户所查找的关键字以及关键字所在的字段,使用QueryParser类表示用户的查询条件。

    6、使用IndexSearcher类检索索引,返回符合查询条件的Document类对象

  其中虚线指向的是这个类所在的包名(packege)。如Analyzer在org.apache.lucene.analysis包下。

 

总结

  倒排序索引的原理就如同查字典。要先查目录,得到数据对应的页码,在直接翻到指定的页码。不是在文章中找词,而是从目录中找词所在的文章。

 

 

  参考链接

标签:检索,lucene,关键字,全文索引,Lucene,索引,文档,Apache
From: https://www.cnblogs.com/hxb2016/p/17296218.html

相关文章

  • Apache httpd 入门实战(1)--概念及安装
    Apachehttpd是Apache软件基金会的一个开源的Web服务器,可以在大多数计算机操作系统中运行,由于其跨平台和安全性被广泛使用,是最流行的Web服务器端软件之一。本文主要介绍其基本概念及安装,文中所使用到的软件版本:httpd2.4.55、apr1.7.2、apr-util1.6.3、pcre8.43、CentOS......
  • apache 路径遍历
    来自tryhackeme的漏洞复现CVE-2021-41773/42013利用:路径遍历利用将允许服务器公开任意文件需要启用mod_cgi模块才能获得远程代码执行2021年10月5日,一个CVE详细描述了对ApacheHTTPServerv2.4.49的路径遍历攻击。分配编号为CVE-2021-41773,发布时具有以下描述:在......
  • Apache服务器安装
     ......
  • Apache的安装与启动
     ......
  • Apache的安装与启动
     ......
  • Apache的启动与安装
      ......
  • 全文索引:Apache Lucene(一)
    做网站门户,全文检索功能必不可少。如何快速、准确的罗列出用户想要的查询结果,是查询的主要目标。模糊查询是最常见的查询,在做单一模块时,我们通常用Like来检索。【like'%张%'】即检索含有'张'字符的项,是从头开始-->的全文匹配。Like的查询原理就是使用索引和匹配算法,如果该......
  • apache的安装
          ......
  • 【Linux】apache服务相关概念及安装
    文章目录web服务概述什么是apachehttpd工作模型apache的安装及应用1.apache的安装2.启动:3.设置开机启动:4.查看httpd的进程及端口号httpd的程序环境查看运行情况方法1:浏览器输入IP,可以查看到已经运行方法2:elinks命令测试总结web服务概述WEB服务器也称为WWW(WORLDWIDEWEB,万......
  • Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述
    Hadoop离线是大数据生态圈的核心与基石,是整个大数据开发的入门。本次分享内容让初学者能高效、快捷掌握Hadoop必备知识,大大缩短Hadoop离线阶段学习时间,下面一起开始今天的学习!一、Hadoop集群简介Hadoop集群整体概述Hadoop集群包括两个集群: HDFS集群、YARN集群两个集群逻辑上分离......