首页 > 其他分享 >全文索引:Apache Lucene(一)

全文索引:Apache Lucene(一)

时间:2023-04-07 14:13:31浏览次数:51  
标签:lucene UrlParam 全文索引 private 查询 Lucene 索引 result Apache

  做网站门户,全文检索功能必不可少。如何快速、准确的罗列出用户想要的查询结果,是查询的主要目标。模糊查询是最常见的查询,在做单一模块时,我们通常用Like来检索。【like '%张%'】即检索含有 '张' 字符的项,是从头开始-->的全文匹配。Like的查询原理就是使用索引和匹配算法,如果该字段的值符合匹配模式,那么这条记录就会被选中。在使用了通配符%后,查询效率会大大降低,因为需要扫描整张表【注:当需要频繁使用 Like 查询,建议在数据库中为相应的字段建立索引】。对于数据量小时,Like的查询效率还算可以,但数据量大时每一次的查询扫描全表,查询效率大大降低。索引是对数据库表中一列或多列的值进行排序的一种结构,建立索引之后字段会排序变成有规则的结构性项,如a,b,c,d。查询字段时。 对没有建立索引的字段进行Like查询,是对非结构性字段从第一条到表的最后一条选中匹配结果;当字段建立索引时,查询可以快速的定位到含查询词的项进行匹配,不必查询整个表。

  而网站门户的全文检索,不仅仅是对单表的查询,应当是对整个网站的公示信息进行查询。比如你是个政府网站,全文检索应该包含:办事服务,政务动态,政策文件,互动交流,信息公开等。再用Like单表来拼接结果的想法显然靠不住,这时候Apache Lucene就登场了。Apache Lucene是一个开源的高性能、可扩展的信息检索引擎,提供了强大的数据检索能力。后面再归纳Lucene的原理,这篇先写实现。

1 首先引入lucene相关jar包,pom.xml添加

<lucene.version>5.5.2</lucene.version>
<!-- lucene依赖 --> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-analyzers-common</artifactId> --分词器 <version>${lucene.version}</version> </dependency> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-backward-codecs</artifactId> --用于读取旧版本的索引,实现索引格式化 <version>${lucene.version}</version> </dependency> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-core</artifactId> --核心处理:解析,解码,存储格式,索引,搜索,存储和工具类 <version>${lucene.version}</version> </dependency> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-highlighter</artifactId> --文本高亮 <version>${lucene.version}</version> </dependency> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-memory</artifactId> --内存 <version>${lucene.version}</version> </dependency> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-queryparser</artifactId> --解析构建Query对象 <version>${lucene.version}</version> </dependency>

2 抽出一个对象类来负责全文检索。该对象按照需求添加属性:如id,标题,分类,时间,请求路径(pc,移动端)

//搜索结果entity
public class SearchResult { private String id; private String title; // 用于查询和显示的摘要信息 private String category; // 分类 private String time; // 文章或消息创建时间 private UrlParam urlParam; // 详情请求路径,包含参数设置 private UrlParam mobileParam; // 移动端请求路径,包含参数设置 }
//URL参数
public class UrlParam { private String path; // 请求路径 private String id; // id参数 private String category; // 分类参数 }

3 在启动服务时以及定时任务,建立及更新索引:

/**
* 创建索引
*/
public void creatIndex(){
    System.out.println("----------------删除索引----------------");
    try {
        searchDao.delete();
    } catch (IOException e) {
        e.printStackTrace();
        System.out.println("删除索引失败");
    }
    int count =0;
    starmili = System.currentTimeMillis();
    System.out.println("----------------开始创建索引----------------");
    try{
        //办事服务
        count += addWorkToIndex();
        //政策文件
        count += addArticleToIndex();
        //信息公开
        count += addInformationToIndex();
    }catch(Exception e){
        e.printStackTrace();
        System.out.println("创建索引失败");
    }
    endmili = System.currentTimeMillis();
    System.out.println("成功创建索引:" + count + " 个,共耗时:" + (endmili - starmili) + "毫秒");
    System.out.println("----------------创建索引结束----------------\n\n");
}

//获取办事服务数据加入索引
private int addWorkToIndex(){
    List<SearchResult> resultList = new LinkedList<SearchResult>();
    List<Workinfo> workinfolist = workService.findList(new Workinfo());
    if(workinfolist != null && !workinfolist.isEmpty()){
        for(Workinfo work : workinfolist){
            SearchResult result = new SearchResult();
            result.setId(work.getId());
            result.setTitle(work.getTitle());
            result.setCategory(SearchEnum.WORKINFO.getCategory());
            result.setTime(work.getCreateDate());
            // 详情请求路径
            UrlParam urlParam = new UrlParam();
            urlParam.setPath(SearchEnum.WORKINFO.getPath());
            urlParam.setId(work.getId());
            urlParam.setCategory(SearchEnum.WORKINFO.getCategory());
            result.setUrlParam(urlParam);
            // 移动端
            UrlParam mobileParam = new UrlParam();
            mobileParam.setPath(SearchEnum.WORKINFO.getMobilePath());
            mobileParam.setId(work.getId());
            mobileParam.setCategory(SearchEnum.WORKINFO.getCategory());
            result.setMobileParam(mobileParam);
            resultList.add(result);
        }
        return searchDao.createIndex(resultList);
    }
    return 0;
}

//获取政策文件数据加入索引
private int addArticleToIndex(){
    List<SearchResult> resultList = new LinkedList<SearchResult>();
    List<Article> articlelist = articleService.findList(new Article());
    if(articlelist != null && !articlelist.isEmpty()){
        for(Article art : articlelist){
            if(art != null && art.getCategory() != null){
                SearchResult result = new SearchResult();
                result.setId(art.getId());
                result.setTitle(art.getTitle());
                result.setCategory(art.getCategory().getName());
                result.setTime(art.getCreateDate());
                // 详情请求路径
                UrlParam urlParam = new UrlParam();
                urlParam.setPath(SearchEnum.ARTICLE.getPath());
                urlParam.setId(art.getId());
                urlParam.setCategory(art.getCategory().getName());
                result.setUrlParam(urlParam);
                // 移动端
                UrlParam mobileParam = new UrlParam();
                mobileParam.setPath(SearchEnum.ARTICLE.getMobilePath());
                mobileParam.setId(art.getId());
                mobileParam.setCategory(art.getCategory().getName());
                result.setMobileParam(mobileParam);
                resultList.add(result);
            }
        }
        return searchDao.createIndex(resultList);
    }
    return 0;
}
View Code

 

标签:lucene,UrlParam,全文索引,private,查询,Lucene,索引,result,Apache
From: https://www.cnblogs.com/hxb2016/p/17295645.html

相关文章

  • apache的安装
          ......
  • 【Linux】apache服务相关概念及安装
    文章目录web服务概述什么是apachehttpd工作模型apache的安装及应用1.apache的安装2.启动:3.设置开机启动:4.查看httpd的进程及端口号httpd的程序环境查看运行情况方法1:浏览器输入IP,可以查看到已经运行方法2:elinks命令测试总结web服务概述WEB服务器也称为WWW(WORLDWIDEWEB,万......
  • Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述
    Hadoop离线是大数据生态圈的核心与基石,是整个大数据开发的入门。本次分享内容让初学者能高效、快捷掌握Hadoop必备知识,大大缩短Hadoop离线阶段学习时间,下面一起开始今天的学习!一、Hadoop集群简介Hadoop集群整体概述Hadoop集群包括两个集群: HDFS集群、YARN集群两个集群逻辑上分离......
  • org.apache.shiro.session.InvalidSessionException: java.lang.I
    1.遇到以下异常,找了好长时间,终于解决,报的异常如下:七月07,20173:02:16下午org.apache.catalina.core.StandardWrapperValveinvoke严重:Servlet.service()forservlet[SpringMVC]incontextwithpath[/IMP]threwexception[org.apache.shiro.session.InvalidSessionEx......
  • Apache
       ......
  • apache-DBUtils 工具类
    用于查询多行多列的数据packagecom.jdbc.DBUtils;importcom.JDBC_Utils.JDBCUtilsByDruid;importcom.JDBC_Utils.News;importorg.apache.commons.dbutils.QueryRunner;importorg.apache.commons.dbutils.handlers.BeanHandler;importorg.apache.commons.dbutils.hand......
  • Apache DB Utils教程_编程入门自学教程_菜鸟教程-免费教程分享
    教程简介ApacheCommonsDBUtils入门教程-从基本到高级概念的简单简单步骤熟悉ApacheCommonsDBUtils,其中包括概述,环境设置,第一个应用程序,基本CRUD示例,创建,读取,更新,删除查询,DBUtils对象,QueryRunner,AsyncQueryRunner,ResultSetHandler,BeanHandler,ArrayListHandler,BeanListHandle......
  • Apache/doris docker启动异常
    环境CPU:x86_64操作系统:ArchLinux(单节点,虚拟机,invmwareworkstation16player)Kernel:Linuxarchlinux6.2.9-arch1-1dorisdocker版本:apache/doris1.2.2-be-x86_64apache/doris1.2.2-fe-x86_64现象启动fe和be后,fe在十几秒后exit,be正常复现流程1.拉......
  • apache如何解决跨域资源访问
    很多时候,大中型网站为了静态资源分布式部署,加快访问速度,减轻主站压力,会把静态资源(例如字体文件、图片等)放在独立服务器或者CDN上,并且使用独立的资源域名(例如res.test.com)但是在实际部署中,会发现浏览器无法载入这些不同域名的资源,firefox控制台会报错:[html]viewplaincopy已阻......
  • Tomcat 与 Nginx,Apache的区别
       Apache指的应该是Apache软件基金会下的一个项目——ApacheHTTPServerProject   Nginx同样也是一款开源的HTTP服务器软件(当然它也可以作为邮件代理服务器、通用的TCP代理服务器)。   Tomcat是Apache基金会下的另外一个项目,与ApacheHTTPServer相比,Tomcat能够......