首页 > 其他分享 >ES 中分词方式 ik_max_word和 ik_smart的区别以及词典对两种形式的作用

ES 中分词方式 ik_max_word和 ik_smart的区别以及词典对两种形式的作用

时间:2024-05-15 20:56:50浏览次数:21  
标签:词汇 word max IK 模式 词典 ik 分词

在Elasticsearch中,IK分词器是一个非常流行的中文分词插件,它支持两种分词模式:

  1. IK-MAX-WORD:这种模式会将文本最大程度地切分成独立的词汇。它主要通过条件随机场(Conditional Random Field, CRF)模型来识别词汇边界,然后使用动态规划寻找最优的词段划分。

  2. IK-SMART:这种模式结合了理解歧义和未知词的算法,对文本进行词典分词的同时,也会智能识别词汇的边界,从而提高分词的准确性。

分词词典(Dictionary)对这两种模式都是有效的,但是它们处理词典的方式略有不同:

  • IK-MAX-WORD:在词典中定义的词汇会被识别出来,但不会影响分词的最大化扩展。即使词典中有定义,IK-MAX-WORD模式仍然会尝试将文本切分成更多的词汇。

  • IK-SMART:词典中的词汇会被用来提高分词的准确性,词典中的词汇边界会被优先考虑,从而可能减少不必要的扩展。

在两种模式下,词典都是分词过程中的重要参考,但它们在面对复杂文本时的策略和效果会有所不同。IK-SMART模式更注重词典的准确性和歧义处理,而IK-MAX-WORD模式则更注重词汇的最大化。

为了充分利用词典,你可能需要根据你的具体需求和文本类型来选择最合适的分词模式,并可能需要对词典进行一些调整或优化。例如,如果你的文本中有很多专有名词或技术术语,使用IK-SMART模式可能会更有效地识别这些词汇。

在Elasticsearch的IK分词器配置中,你可以这样指定词典:

PUT /my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "ik_max_word": {
          "type": "ik",
          "use_smart": false  // 关闭智能分词,使用IK-MAX-WORD模式
        },
        "ik_smart": {
          "type": "ik",
          "use_smart": true    // 开启智能分词,使用IK-SMART模式
        }
      }
    }
  }
}

在这个配置中,ik_max_word 分析器用于IK-MAX-WORD模式,而 ik_smart 分析器用于IK-SMART模式。你可以根据需要选择使用哪种分析器。

标签:词汇,word,max,IK,模式,词典,ik,分词
From: https://www.cnblogs.com/darcy471/p/18194691

相关文章

  • pyppeteer Execution context was destroyed, most likely because of a navigation
    一般情况下是当前page有开启新的页面,或者重定向之类的操作,然后重定向还没有完成的时候,就对page进行了操作,比如waitXpath之类的,就会导致该异常的出现。这个时候需要使用到函数page.waitForNavigation(timeout=timeout)但是怎么说呢,这个函数的使用,必须紧挨重定向开始以后,如......
  • 错误解决 TypeError: __init__() got an unexpected keyword argument 'size'import l
    TypeError:__init__()gotanunexpectedkeywordargument'size'importlogging代码段如下importloggingimportosfromgensim.modelsimportword2veclogging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s',level=logging.IN......
  • 界面控件Telerik UI for WPF中文教程 - 如何轻松实现日期范围选择?
    TelerikUIforWPF拥有超过100个控件来创建美观、高性能的桌面应用程序,同时还能快速构建企业级办公WPF应用程序。UIforWPF支持MVVM、触摸等,创建的应用程序可靠且结构良好,非常容易维护,其直观的API将无缝地集成VisualStudio工具箱中。TelerikUIforWPF中的RadDateRangePicker......
  • 3ds Max与Maya不同之处?两者哪个更适合云渲染?
    3dsMax和Maya都是知名的3D软件,各有其特色。3dsMax以直观的建模和丰富的插件生态闻名;Maya则在动画和角色创作方面更为出色。两者都支持云渲染技术,能帮助用户在云端高效完成项目。一、3dsMax和Maya之间的主要区别:3dsMax和Maya由Autodesk公司开发的3D建模和动画软件......
  • java poi之XWPFDocument读取word内容并创建新的word(获取表格所有图片)
    Poi的Word文档结构介绍1、poi之word文档结构介绍之正文段落一个文档包含多个段落,一个段落包含多个Runs,一个Runs包含多个Run,Run是文档的最小单元获取所有段落:Listparagraphs=word.getParagraphs();获取一个段落中的所有Runs:ListxwpfRuns=xwpfParagraph.getRuns();获取......
  • worm. 3dsmax.alc.1蠕虫病毒
    病毒特征:1.Ctrl+Z撤销崩溃2.关闭文件时点击“不保存”,却自动保存3.中毒后主文件都会中毒,并感染其他max文件,有可能损坏你的模型文件原理:1.打开一个带病毒的模型文件(保存后?)2.在脚本目录下(STARTUP)创建“vrdematcleanbeta.mse”、“vrdematcleanbeta.msex”并会一直存在3.这两......
  • Mysql的max()函数9大于10问题
    前言在公司老项目使用过程中都遇到过这个问题,所以这里记录下来问题描述使用系统中发现系统的字典新增之后排序不固定,于是查找问题,打开数据库发现sort大部分都是"10"mybatis中查询语句如下: `selectIFNULL(MAX(DIC_SORT),0)FROMDIC_INFOWHERE'ProjectId'=#{ProjectId}`......
  • 用手机免费pdf转word文档怎么操作?
    众所周知,PDF是不可直接编辑的文件,尤其是扫描件。如果要将pdf文件转换为word文件,如何进行转换?其实我们可以通过工具把pdf转word文档的操作哦。有很多人不知道用什么工具好,小编今天就给大家推荐一款手机也能免费将pdf文档转成word文档的在线工具smallpdf中文版。pdf转word可以在线......
  • The 'nopython' keyword argument was not supplied to the 'numba.jit' decorator. T
    numba无法支持nopython错误解决错误:The'nopython'keywordargumentwasnotsuppliedtothe'numba.jit'decorator.TheimplicitdefaultvalueforthisargumentiscurrentlyFalse,butitwillbechangedtoTrueinNumba0.59.0.Seehttps://numb......
  • skipped: maximum number of running instances reached (1)
    Python的 apscheduler今天出现skipped:maximumnumberofrunninginstancesreached(1)问题产生的原因:设置了大量的任务,而APScheduler无法同时处理所有任务解决方法:调整APScheduler使用的线程池大小来增加并发处理任务的能力fromapscheduler.schedulers......