首页 > 其他分享 >Solr的自动完成实现方式(facet方式)

Solr的自动完成实现方式(facet方式)

时间:2023-03-22 22:38:30浏览次数:21  
标签:name 方式 提示 用户 facet 一个 Solr 我们


大部分人已经见过自动完成(autocomplete)的功能了(见下图),solr提供了构建这个功能的机制。今天,我将给你展示如何使用facet的方式来添加自动完成机制。 


Solr的自动完成实现方式(facet方式)_solr

 

索引 

设想你想在你的在线商店中,给用户一些提示,比如商品的名称。假设我们的索引构建如下: 

<field name="id" type="string" indexed="true" stored="true" multiValued="false" required="true"/>  
<field name="name" type="text" indexed="true" stored="true" multiValued="false" />  
<field name="description" type="text" indexed="true" stored="true" multiValued="false" />


 

text类型的定义为: 


<fieldType name="text" class="solr.TextField" positionIncrementGap="100">  
<analyzer>  
<tokenizer class="solr.WhitespaceTokenizerFactory"/>  
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>  
<filter class="solr.LowerCaseFilterFactory"/>  
</analyzer>  
</fieldType>


 

配置 
开始前,首先考虑你要实现的功能:是要实现一个名字的提示,还是全名的提示。这都依赖于我们的选择,我们必须为需要引导的地方设置适当的域。 

单词提示 
在单词的情况下,我们使用的域也即一个token。在这种情况下,域名为name就足够了。但是,这属于一个词干,analysis的操作都在词干上,因此,我们最好换一个其他的类型。 

全名提示 
我们使用一个不同的域配置来定义全名提示--最好一个未被定义的域。但是我们不能使用基于类似string这种类型的域,基于这个原因,我们定义为一下的域: 

 


<field name="name_auto" type="text_auto" indexed="true" stored="true" multiValued="false" />


text_auto类型的定义为: 


<fieldType name="text_auto" class="solr.TextField">  
<analyzer>  
<tokenizer class="solr.KeywordTokenizerFactory"/>  
<filter class="solr.LowerCaseFilterFactory"/>  
</analyzer>  
</fieldType>


 

为了不影响原有数据的格式,将原数据进行拷贝: 


<copyField source="name" dest="name_auto" />


 

如何使用 
为了使用这个数据,我们准备了一个简单的查询语句: 

 


q=*:*&facet=true&facet.field=FIELD&facet.mincount=1&facet.prefix=USER_QUERY


需要替换的地方: 
   FIELD:我们打算提供建议的域,在本例中域名为name 或name_auto 
   USER_QUERY:用户输入的字符 

这里可以设置rows=0,这样可以只返回facet的结果,而没有查询结果。当然这不是必须的。 

查询的一个例子可以这样写: 


fl=id,name&rows=0&q=*:*&facet=true&facet.field=name_auto&facet.mincount=1&facet.prefix=har


 

查询结果会返回这样的结果: 


<response>  
<lst name="responseHeader">  
<int name="status">0</int>  
<int name="QTime">0</int>  
</lst>  
<result name="response" numFound="4" start="0"/>  
<lst name="facet_counts">  
<lst name="facet_queries"/>  
<lst name="facet_fields">  
<lst name="name_auto">  
<int name="hard disk">1</int>  
<int name="hard disk samsung">1</int>  
<int name="hard disk seagate">1</int>  
<int name="hard disk toshiba">1</int>  
</lst>  
</lst>  
<lst name="facet_dates"/></lst>  
</response>


 

扩展功能 
这里说一下他的一些常用的功能。 

第一个是显示用户的一些额外的信息,比如当你选择某个提示词时,显示的结果的数量。这是一个很有意思的特性。

另一个是使用facet.sort参数进行排序。这依赖于你的需求,我们可以按文档的数量排序(默认方式,设参数为true即可),或者按字母序排序(设为false)。 

我们也可以通过设置facet.mincount来显示比指定的数量更多的提示词。 

另外一个很好的特性是提示词不仅可以通过用户的类型获取,还可以通过其他的属性获取,这类似于类别。举个例子,我们想给用户展示家庭用品相关的商品,我们假设现在用户对DVD类型的商品并不感兴趣,这样我们添加一个参数:fq=department:homeApplications(假设有这个department)。通过这样的一个查询,你就不需要在所有的索引中匹配了,而是在我们选择的department里选择。 

结尾 
跟其他方法一样,它有优点,也有缺点。优点就是易于使用、没有额外的组件依赖,并且能将结果约束在一个很小的范围内来更好的匹配用户的需求;另外一个很大的优点是它对每个提示词都附带了结果的统计。缺点就是需要添加额外的类型和字段;另外由于其facet的机制,对机器性能和load都非常消耗。 


PS:我自己测试了一下,由于这个功能是实时请求的(每个字母的输入都是一次请求),如果量很大的时候,统计数量会占用很大的内存,内存过小(我的2G)很容易OOM。所以,这个功能慎用。 

标签:name,方式,提示,用户,facet,一个,Solr,我们
From: https://blog.51cto.com/u_2650279/6143452

相关文章

  • Solr 缓存配置
    Solr缓存与Solr的索引搜索器(SolrIndexSearcher)息息相关的,而众所周知,索引的结构很难做出大的变动,效率也是板上钉钉的事情。因此提高索引搜索器的使用效率,使之在任何缓存都能......
  • solr q查询容错性
    当solr接收没q参数(或q参数值为空)请求时,会报错。对开发调试时才比较有用,但实际运行环境报错就不太好了,java异常可能有点性能消耗,那干脆就返回正常的结果好了(只是结果里没有找......
  • solrcloud&zookeeper集群搭建
    solrcloud&zookeeper集群搭建zookeeper的配置解压tar–zxvfzookeeper.XXX.tar.gz配置dataDir:zookeeper的管理的节点信息需要记录在该路径下的data目录下默认启动端口218......
  • js 截取文件后缀名的3种方式
    1.情景展示当我们使用文件上传插件,将文件上传到后台,有时候需要上传的不止一种文件类型,即:图片或着PDF;我们可能需要根据不同文件类型,提供不同的预览地址。如何根据文件......
  • AndroidApp加密数据明文抓取测试方法——hook方式
    0x00前言在做移动安全的app渗透或者说移动app的漏洞挖掘时,往往会碰到一种情况:好不容易绕过了app的反抓包机制,通过burp抓到了app传输的数据包,这时想对这部分数据做一些爆......
  • K8s学习(一)从零开始搭建kubernetes集群环境(虚拟机/kubeadm方式)
    K8s学习(一)从零开始搭建kubernetes集群环境(虚拟机/kubeadm方式) 1Kubernetes简介(k8s)传统部署:互联网早期会直接将应用程序部署在物理机上或者虚拟操作系统中,如部署到to......
  • 【Visual Leak Detector】在 QT 中使用 VLD(方式三)
    说明使用VLD内存泄漏检测工具辅助开发时整理的学习笔记。目录说明1.使用前的准备2.在QT中使用VLD2.1复制lib库及头文件2.2在项目.pro文件中指明路径2.3配......
  • .netcore 在Linux(Centos)使用Docker方式部署
    运行环境假设你已经安装好了.netcore运行环境,未配置可以看这篇​​[linux(centos)搭建.netcore运行环境]​​centos:7.2cpu:1核2G内存1M带宽docker:18.06.1-ce安装docke......
  • Spring MVC拦截器+注解方式实现防止表单重复提交
    原理:在新建页面中Session保存token随机码,当保存时验证,通过后删除,当再次点击保存时由于服务器端的Session中已经不存在了,所有无法验证通过。注,如果是集群的方式,则需要将tok......
  • 一统天下 flutter - dart: 其它(用调用函数的方式调用类的实例,生成器)
    一统天下flutterhttps://github.com/webabcd/flutter_demo作者webabcd一统天下flutter-dart:其它(用调用函数的方式调用类的实例,生成器)示例如下:lib\dart\othe......