首页 > 其他分享 >Elasticsearch 支持哪些中文分词器?

Elasticsearch 支持哪些中文分词器?

时间:2025-01-06 19:05:37浏览次数:8  
标签:中文 拼音 -- Analyzer IK Elasticsearch 分词器

关注我,持续分享逻辑思维&管理思维&面试题; 可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导;

推荐专栏《10天学会使用asp.net编程AI大模型》,目前已完成所有内容。一顿烧烤不到的费用,让人能紧跟时代的浪潮。从普通网站,到公众号、小程序,再到AI大模型网站。干货满满。学成后可接项目赚外快,绝对划算。不仅学会如何编程,还将学会如何将AI技术应用到实际问题中,为您的职业生涯增添一笔宝贵的财富。

-------------------------------------正文----------------------------------------

Elasticsearch支持的中文分词器主要包括以下几种:

  1. IK Analyzer(IK分词器)

    • IK Analyzer是一个开源的、针对中文文本的分词器插件,它集成了Lucene IK Analyzer,支持自定义词典。IK分词器提供了两种分词模式:ik_max_wordik_smart
      • ik_max_word:这种分词器会尽可能地枚举出所有可能的关键词,分词比较细致,会分解出更多的关键词。
      • ik_smart:智能分词模式,倾向于做最粗粒度的分词,减少冗余。
    • IK Analyzer插件的GitHub地址为:elasticsearch-analysis-ik
  2. Smart Chinese Analyzer

    • Elasticsearch内置了一种名为Smart Chinese Analyzer的中文分词器,它是一种智能化的中文分词器,但根据社区的反馈,IK分词器在中文分词领域更为流行和准确。
  3. Pinyin Analyzer(拼音分词器)

    • 拼音分词器是一种专为中文拼音搜索而设计的分词器。它可以将汉字转化为拼音,从而支持拼音搜索,适用于需要通过拼音进行检索的场景。
  4. 自定义分词器

    • Elasticsearch允许用户根据特殊需求自定义分词器,以满足特定的分词逻辑和需求。

在实际应用中,IK Analyzer因其强大的自定义能力和高准确率,成为Elasticsearch中文分词的首选。安装IK Analyzer插件后,可以通过简单的API调用来配置和使用IK分词器,从而改善中文搜索体验。

感兴趣的同学辛苦 关注/点赞 ,持续分享逻辑、算法、管理、技术、人工智能相关的文章。

有意找工作的同学,请参考博主的原创:《面试官心得--面试前应该如何准备》,《面试官心得--面试时如何进行自我介绍》, 《做好面试准备,迎接2024金三银四》。
或关注博主免费专栏【程序员宝典--常用代码分享】里面有大量面试涉及的算法或数据结构编程题。

博主其它经典原创:《管理心得--如何高效进行跨部门合作》,《技术心得--如何成为优秀的架构师》、《管理心得--如何成为优秀的架构师》、《管理心理--程序员如何选择职业赛道》,及
C#实例:SQL如何添加数据》,《C#实战分享--爬虫的基础原理及实现》欢迎大家阅读。

标签:中文,拼音,--,Analyzer,IK,Elasticsearch,分词器
From: https://blog.csdn.net/weixin_60437218/article/details/144654966

相关文章

  • 中文大模型(持续更新中)
    ​ChatGPT爆火之后,国内也出现了很多的大模型。总结常见的中文大模型,排名不分先后。阿里巴巴-通义系列AI通义系列通义千问开放时间:2023年9月13日面向公众开放。阿里旗下通义系列AI产品包括:1、通义千问:最早推出的产品之一,它是一款基于深度学习技术的超大规模语言模型......
  • linux下很多软件无法输入中文的完美解决方案:对话框+wl-clipboard
    如blender,ueforlinux,reaper等,由于没有处理编译linux下与输入法相关的.so文件,无法切换中文输入法。需要wayland协议的桌面zenity/yad/kdinput(有拉伸窗口,位置乱跳bug)脚本+快捷键xdotoolkeyctrl+c;zenity--entry--text=$(wl-paste)|wl-copy--paste-once&&w......
  • Postman与ElasticSearch交互
    为了方便测试,修改ES安装路径下的config/elasticsearch.yml中的安全配置,不使用密钥访问。以下配置的enabled都改为false#Enablesecurityfeaturesxpack.security.enabled:falsexpack.security.enrollment.enabled:false#EnableencryptionforHTTPAPIclientconne......
  • 本地搭建ElasticSearch
    1:在elastic.co下载安装包https://www.elastic.co/downloads/elasticsearchwindows版本的是个zip包,下载解压缩后可直接通过命令行运行cd[安装路径]/binelasticsearch2:配置默认需要ssl、密码等安全配置,会导致localhost:9200访问失败。可通过以下方式关闭安全配置,再重启服务......
  • Effective Java中文版(原书第3版)PDF、EPUB免费下载
    EffectiveJava中文版(原书第3版)PDF、EPUB免费下载适读人群:本书并非面向Java初学者,而是要求读者有一定的Java编程经验。对于在Java开发方面已经积累一定经验的读者而言,本书可以帮助其更深入地理解Java编程语言,以成为更卓越、高效的Java开发人员。Jolt获奖作品全新升级,与《Java编......
  • python基于深度学习的中文情感分析系统
    大家好我是小村学长,混迹在java圈的辛苦码农。今天要和大家聊的是一款《python基于深度学习的中文情感分析系统》毕业设计项目。项目源码以及部署相关请联系小村学长,文末附上联系信息。......
  • python基于深度学习的中文情感分析系统
    大家好,我是陈辰学长,一名在Java圈辛勤劳作的码农。今日要和大家分享的是一款《python基于深度学习的中文情感分析系统》毕业设计项目。项目源码以及部署相关事宜,请联系陈辰学长,文末会附上联系信息哦。......
  • Elasticsearch中如何自定义分词器?
    关注我,持续分享逻辑思维&管理思维&面试题;可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导;推荐专栏《10天学会使用asp.net编程AI大模型》,目前已完成所有内容。一顿烧烤不到的费用,让人能紧跟时代的浪潮。从普通网站,到公众号、小程序,再到AI大模型网站。干货满满。学成后可......
  • [中文流行] 阿杜[2002-2023年]所有专辑歌曲合集[无损FLAC/MP3/4.61GB]
    发布时间:2023-05-21语言种类:国语音乐类型:阿杜歌曲大全音源格式:高品质MP3+WAV+FLAC共计大小:4.61GB歌曲简介:阿杜,新加坡华人男歌手,凭借《他一定很爱你》、《撕夜》、《坚持到底》等广为流传的歌曲被大家熟知。他拥有极具个人魅力的烟嗓,歌声总能传递出生动的画面感,一口沙哑的特殊嗓音......
  • 国内最全 ChatGPT中文版镜像网站整理合集【2025年最新更新】
     一、ChatGPT中文镜像站① https://chat.lify.vip支持GPT4、4o和o1,支持MJ绘画②Github项目:ChatGPT中文版镜像网站 支持GPT-4、4o和o1①什么是镜像站   镜像站(MirrorSite)是指通过复制原始网站内容和结构,创建的备用网站。其主要目的是在原始网站无法访问时,提供......