首页 > 其他分享 >ES - 自动补全

ES - 自动补全

时间:2023-10-02 11:33:44浏览次数:35  
标签:end 补全 start token 自动 offset word type ES

效果:

要实现根据字母做补全,就必须对文档按照拼音分词,在github 上已经有elasticsearch 的拼音分词插件:

  1. 拼音分词器下载地址:(https://github.com/medcl/elasticsearch-analysis-pinyin)[https://github.com/medcl/elasticsearch-analysis-pinyin]

  2. 下载解压好后上传到es 插件目录:/var/lib/docker/volumes/es-plugins/_data

  3. 重启es

  4. 测试拼音分词器

POST /_analyze
{
  "analyzer": "pinyin",
  "text": "如家酒店真不错"
}

结果:

{
  "tokens" : [
    {
      "token" : "ru",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "rjjdzbc",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "jia",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 1
    },
    {
      "token" : "jiu",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 2
    },
    {
      "token" : "dian",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 3
    },
    {
      "token" : "zhen",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 4
    },
    {
      "token" : "bu",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 5
    },
    {
      "token" : "cuo",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 6
    }
  ]
}

标签:end,补全,start,token,自动,offset,word,type,ES
From: https://www.cnblogs.com/czzz/p/17739805.html

相关文章

  • 01. Kubernetes基础入门
    目录1、前言2、Kubernetes介绍2.1、什么是Kubernetes2.2、主要功能2.3、与Docker的关系2.4、Kubernetes集群架构体系3、Kubernetes组件3.1、核心组件3.2、附加组件4、Kubernetes对象4.1、对象管理4.2、命名空间4.3、标签1、前言Docker容器技术将应用及其依赖打包到镜像中,从而很好......
  • destoon9.0游戏自媒体类型综合资讯门户模板
    随着时代发展,自媒体资讯适合当前的互联网情形。呕心沥血开发的一套自媒体综合门户网站模板,本模板采用纯手写开发,带会员中心。首页,列表页,内容页,搜索页面精心编写,非常大气,并配移动端。注意:模板目前只用了资讯模块,会员模块,其他模块都禁用了。特色:1、非常适合做资讯门户站。2、首页,列......
  • destoon根据标题删除重复数据
    因为采集数据比较庞大,难免出现重复数据,所以写了一个根据标题进行删除重复数据的mysql命令,需要的朋友可以使用。1234DELETE fromdestoon_article_36where`title`in(    SELECT*from(SELECT`title`FROMdestoon_article_36GROUPBY`title` HAVIN......
  • 10 Rules of Good and Bad Studying 学习的10条好与坏规则
    10RulesofGoodStudying良好学习的10条法则Userecall.Afteryoureadapage,lookawayandrecallthemainideas.Highlightverylittle,andneverhighlightanythingyouhaven’tputinyourmindfirstbyrecalling.Tryrecallingmainideaswhenyouare......
  • Java 21 新特性:Unnamed Patterns and Variables
    Java21中除了推出JEP445:UnnamedClassesandInstanceMainMethods之外,还有另外一个预览功能:未命名模式和变量(UnnamedPatternsandVariables)。该新特性的目的是提高代码的可读性和可维护性。下面通过一个例子来理解这个功能,try-catch块相信大家都不陌生,都是这样写的:try{......
  • 嵌入式软件调试与验证4自动重现和分析嵌入式软件中的Bug
    4自动重现和分析嵌入式软件中的Bug4.1引言嵌入式软件的重要性逐年增加。ISO26262标准的最高安全级别要求十个9小时内无故障运行。然而,历史上的一些项目表明,即使进行了全面的测试,多年来仍有许多错误未被发现。航天飞机的控制计算机仅有50万行源代码,却经过了长达8年的测试,每行源......
  • AtCoder Grand Contest 056 D Subset Sum Game
    洛谷传送门AtCoder传送门考虑若\(n\)是奇数怎么做。枚举Alice第一次选的数\(a_i\),然后考虑把剩下的数两两结成一个匹配,若Bob选了其中一个,Alice就选另一个。容易发现排序后奇数位和它右边的偶数位匹配最优。那么设奇数位的和为\(A\),偶数位的和为\(B\),此时Alice获胜......
  • Llama2-Chinese项目:3.2-LoRA微调和模型量化
      提供LoRA微调和全量参数微调代码,训练数据为data/train_sft.csv,验证数据为data/dev_sft.csv,数据格式为"<s>Human:"+问题+"\n</s><s>Assistant:"+答案。本文主要介绍Llama-2-7b模型LoRA微调以及4bit量化的实践过程。1.LoRA微调脚本  LoRA微调脚本train/sft/finetune_lora......
  • 字符串小记 II:字符串自动机
    OI中的自动机指的是“有限状态自动机”,它是对一串信号进行处理的数学模型,一般由以下三部分构成:字符集(\(\Sigma\)),能够输入进自动机的字符集合。状态集合(\(Q\)),相当于有向图中的节点。转移函数(\(\delta\)),相当于有向图中的边。我们通过输入的信息在这个有向图中转移,而这个有......
  • Protocol message had invalid UTF-8异常解决
    UTF-8是一种常用的字符编码方案,用于在计算机系统中表示和传输文本。它使用变长字节序列来表示不同的字符。当一个协议消息被解析时,如果消息中包含了无效的UTF-8字符,就会引发这个错误。要解决这个问题,可以采取以下步骤:检查数据源:首先,确认数据源是否提供了有效的UTF-8编码的消息......