ES - 自动补全

时间：2023-10-02 11:33:44浏览次数：35

标签：end 补全 start token 自动 offset word type ES

效果：

要实现根据字母做补全，就必须对文档按照拼音分词，在github 上已经有elasticsearch 的拼音分词插件：

拼音分词器下载地址：(https://github.com/medcl/elasticsearch-analysis-pinyin)[https://github.com/medcl/elasticsearch-analysis-pinyin]
下载解压好后上传到es 插件目录：/var/lib/docker/volumes/es-plugins/_data
重启es
测试拼音分词器

POST /_analyze
{
  "analyzer": "pinyin",
  "text": "如家酒店真不错"
}

结果：

{
  "tokens" : [
    {
      "token" : "ru",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "rjjdzbc",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "jia",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 1
    },
    {
      "token" : "jiu",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 2
    },
    {
      "token" : "dian",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 3
    },
    {
      "token" : "zhen",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 4
    },
    {
      "token" : "bu",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 5
    },
    {
      "token" : "cuo",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 6
    }
  ]
}

标签：end,补全,start,token,自动,offset,word,type,ES
From： https://www.cnblogs.com/czzz/p/17739805.html

01. Kubernetes基础入门
目录1、前言2、Kubernetes介绍2.1、什么是Kubernetes2.2、主要功能2.3、与Docker的关系2.4、Kubernetes集群架构体系3、Kubernetes组件3.1、核心组件3.2、附加组件4、Kubernetes对象4.1、对象管理4.2、命名空间4.3、标签1、前言Docker容器技术将应用及其依赖打包到镜像中，从而很好......
destoon9.0游戏自媒体类型综合资讯门户模板
随着时代发展，自媒体资讯适合当前的互联网情形。呕心沥血开发的一套自媒体综合门户网站模板，本模板采用纯手写开发，带会员中心。首页，列表页，内容页，搜索页面精心编写，非常大气，并配移动端。注意：模板目前只用了资讯模块，会员模块，其他模块都禁用了。特色：1、非常适合做资讯门户站。2、首页，列......
destoon根据标题删除重复数据
因为采集数据比较庞大，难免出现重复数据，所以写了一个根据标题进行删除重复数据的mysql命令，需要的朋友可以使用。1234DELETE fromdestoon_article_36where`title`in( SELECT*from(SELECT`title`FROMdestoon_article_36GROUPBY`title` HAVIN......
10 Rules of Good and Bad Studying 学习的10条好与坏规则
10RulesofGoodStudying良好学习的10条法则Userecall.Afteryoureadapage,lookawayandrecallthemainideas.Highlightverylittle,andneverhighlightanythingyouhaven’tputinyourmindfirstbyrecalling.Tryrecallingmainideaswhenyouare......
Java 21 新特性：Unnamed Patterns and Variables
Java21中除了推出JEP445:UnnamedClassesandInstanceMainMethods之外，还有另外一个预览功能：未命名模式和变量（UnnamedPatternsandVariables）。该新特性的目的是提高代码的可读性和可维护性。下面通过一个例子来理解这个功能，try-catch块相信大家都不陌生，都是这样写的：try{......
嵌入式软件调试与验证4自动重现和分析嵌入式软件中的Bug
4自动重现和分析嵌入式软件中的Bug4.1引言嵌入式软件的重要性逐年增加。ISO26262标准的最高安全级别要求十个9小时内无故障运行。然而，历史上的一些项目表明，即使进行了全面的测试，多年来仍有许多错误未被发现。航天飞机的控制计算机仅有50万行源代码，却经过了长达8年的测试，每行源......
AtCoder Grand Contest 056 D Subset Sum Game
洛谷传送门AtCoder传送门考虑若\(n\)是奇数怎么做。枚举Alice第一次选的数\(a_i\)，然后考虑把剩下的数两两结成一个匹配，若Bob选了其中一个，Alice就选另一个。容易发现排序后奇数位和它右边的偶数位匹配最优。那么设奇数位的和为\(A\)，偶数位的和为\(B\)，此时Alice获胜......
Llama2-Chinese项目：3.2-LoRA微调和模型量化
提供LoRA微调和全量参数微调代码，训练数据为data/train_sft.csv，验证数据为data/dev_sft.csv，数据格式为"<s>Human:"+问题+"\n</s><s>Assistant:"+答案。本文主要介绍Llama-2-7b模型LoRA微调以及4bit量化的实践过程。1.LoRA微调脚本 LoRA微调脚本train/sft/finetune_lora......
字符串小记 II：字符串自动机
OI中的自动机指的是“有限状态自动机”，它是对一串信号进行处理的数学模型，一般由以下三部分构成：字符集（\(\Sigma\)），能够输入进自动机的字符集合。状态集合（\(Q\))，相当于有向图中的节点。转移函数（\(\delta\)），相当于有向图中的边。我们通过输入的信息在这个有向图中转移，而这个有......
Protocol message had invalid UTF-8异常解决
UTF-8是一种常用的字符编码方案，用于在计算机系统中表示和传输文本。它使用变长字节序列来表示不同的字符。当一个协议消息被解析时，如果消息中包含了无效的UTF-8字符，就会引发这个错误。要解决这个问题，可以采取以下步骤：检查数据源：首先，确认数据源是否提供了有效的UTF-8编码的消息......

ES - 自动补全

相关文章

赞助商

阅读排行