首页 > 其他分享 >ES 6中分词器

ES 6中分词器

时间:2024-12-16 16:31:56浏览次数:6  
标签:字符 分割 字母 分词器 文本 分词 ES

ES 6中分词器:

Standard 分词器:适用于自然语言文本,能够识别单词、数字、电子邮件地址和 URL。
特点:
识别单词:能够识别常见的单词边界。
处理标点符号:会忽略大多数标点符号,但保留电子邮件地址和 URL。
处理数字:能够识别并保留数字。
处理特殊字符:能够处理一些特殊字符,如连字符和撇号。

Simple 分词器:简单地按非字母字符分割文本,并将所有字母转换为小写。
特点:
简单分割:只按非字母字符分割。小写转换:将所有字母转换为小写。
不处理数字:数字被视为非字母字符,会被分割掉。

WhiteSpace 分词器:仅按空格分割文本,保留所有字符。
特点:
按空格分割:只按空格分割文本。
保留所有字符:不忽略任何字符,包括标点符号和数字。

Keyword 分词器:将整个输入文本作为一个单一的词元处理,不分词。
特点:
不分词:将整个输入文本作为一个词元处理。
保留原样:不进行任何转换或修改。

ik_smart:将文本最大程度地切分成独立的词汇
ik_max_word:这种模式结合了理解歧义和未知词的算法,对文本进行词典分词的同时,也会智能识别词汇的边界,从而提高分词的准确性。

标签:字符,分割,字母,分词器,文本,分词,ES
From: https://www.cnblogs.com/chenshaojun2008/p/18610468

相关文章

  • 线性回归(linear regression)
    其实线性回归不过就是在做两件事,画一条线并判断这条线到各个点的距离。如下图:其中这条线便是距离各个点距离总和最小的直线。也就是e+u+w+b+a总和在直线为这个情况下最小。 但是什么时候这条线是我们需要的线呢?--线到各个点最短的时候便是。我们先理解一下什么是凹函数:......
  • DeprecationWarning: Callback API version 1 is deprecated, update to latest versi
    背景说明        最近在使用MQTT进行发送消息的时候,每次运行都会弹出这个红色的警告,虽然不影响运行,但是看起来怪怪的,于是乎想顺手解决一下,自己使用的mqtt服务器是mosquitto。具体的警告提示如下:问题分析及解决        在Python中使用MQTT时,如果你收到......
  • 如何在 Spring Boot 应用程序中使用 WireMock 模拟外部 rest api 调用进行测试
    模拟外部API调用是集成或端到端测试中的常见做法,因为它允许开发人员将他们的代码与外部隔离。如果我们使用付费API并希望避免在测试时进行调用以节省资金,这也会有所帮助。有两种方法可以模拟外部API使用Mockito使用WireMock在集成测试和端到端测试中,我更喜欢使用Wir......
  • DES(请自行忽略我写的第一篇,这个才是真的)
    1.DES特点(1)是对称加密算法(2)56位密钥进行加密。(原有64位,其中有8位校验位)(3)对明文块进行加密,以64位为一个块,不足64填充为64,超过64,以分组模式进行分组加密2.DES加密流程(1)首先把64位的明文进行初始IP置换(把64位明文按照规定的置换表进行排序),然后分成L0和R0两个部分,每个部分32位......
  • openGauss报错:Too many open files,解决方案
    操作系统信息Linuxuser-pc5.4.18-87.76-generic#gfb16-KYLINOSSMPThuAug3109:05:44UTC2023aarch64aarch64aarch64GNU/Linux解决方案当前使用gsql-dpostgres-p5432-r命令登录数据的时候,报错如下:gsql:FATAL:couldnotlookuplocaluserID1002:Too......
  • cesium拾取管网属性功能
    最近在做移动端地下管网可视化系统时,做到一个属性查询功能。就是拾取一根管道,读取该管道属性并显示。实现效果如下图。核心代码如下://开始拾取consthandlePick=()=>{if(!cesiumStore.viewer){Notify.create({type:"negative",message:"Cesi......
  • 【杂谈】如何选择:Session 还是 JWT?
    服务端如何验证客户端已经登录?在用户成功登录后,服务端会发放一个凭证。之后,客户端的每次请求都需要携带该凭证,服务端通过验证凭证的有效性来判断用户是否已登录,并处理请求。以下是Session和JWT在这方面的不同之处:1.凭证的内容是什么?Session:凭证是一个简单的ID字符串,用......
  • [LeetCode] 2730. Find the Longest Semi-Repetitive Substring
    Youaregivenadigitstringsthatconsistsofdigitsfrom0to9.Astringiscalledsemi-repetitiveifthereisatmostoneadjacentpairofthesamedigit.Forexample,"0010","002020","0123","2002",and&quo......
  • unittest-26-通过命令行执行测试(1)-指定测试对象
    1、前置准备参考:官方地址:https://docs.python.org/zh-cn/3.11/library/unittest.html#command-line-interface官方简要说明:unittest模块可以通过命令行运行模块、类和独立测试方法的测试个人对应视频:https://www.bilibili.com/video/BV1sLYQe8EN7?vd_source=08c7173......
  • Ant Design Vue使用a-table动态设置columns
    一、需求一个页面显示多个列表数据,需要改变表头columns参数等二、问题1、设置columns之后,因为a-table中的columns、data-source是响应式的,所以可以看到切换渲染是可以正常完成的,数据、表头都是正常的。2、由于列表数据除了直接取过来显示的之外,还有部分数据需要根据值进行判断......