首页 > 编程语言 >强大的中文分词器--结巴分词(java版)

强大的中文分词器--结巴分词(java版)

时间:2023-07-22 19:26:14浏览次数:45  
标签:jieba java -- 模式 分词 照明灯 分词器 奥利 词典

简介

原生jieba分词是强大的Python组件,可以用来进行关键词提取,标注以及定位。

java版支持三种模式

  • 精确模式:试图将句子最精确地切开,适合文本分析;
  • 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
  • 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词

使用

导入maven依赖

项目地址:https://github.com/hexuefengx/jieba-analysis

com.huaban
jieba-analysis
1.0.2

三种模式使用

准备一段文本 奥利给 我是照明灯具 普通型 安全出口标志灯 DC36V 6W 壁式,看三种模式抽取出的关键词区别

  • 代码

  • 效果
    精确模式:["奥利","给","我","是","照明灯","具","普通型","安全","出口","标志灯","DC36V6W","壁式"]
    INDEX模式:["奥利","给","我","是","照明","明灯","照明灯","具","普通","普通型","安全","出口","标志","标志灯","dc36v6w","壁式"]
    SEARCH模式:["奥利","给","我","是","照明灯","具","普通型","安全","出口","标志灯","dc36v6w","壁式"]
    可以看出serch模式和精确模式区别不大

自定义词典

jieba 分词内置了常用词典,在源代码目录下有个dic.txt文件

当内置词典不满足我们的业务场景时,可以自定义词典
词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒

举个栗子,把文本中的奥利给 和 我是照明灯 定义成关键词,就得这样定义
奥利给 50
我是照明灯具 50

  • 新建自定义词典文件:
    在resource 目录下新建jiebaCon目录,并新建自定词典文件
  • 加载用户词典文件
  • 效果

动态加载用户词典

思路:从外部读取词典数据,生成临时文件供jieba分词组件使用

  • 代码
  • 效果

实例代码

关注公众号,回复jieba 即可获取源码

标签:jieba,java,--,模式,分词,照明灯,分词器,奥利,词典
From: https://www.cnblogs.com/minesnil-forfaith/p/17573771.html

相关文章

  • [解题报告][CF1007E]Mini Metro
    Statement传送门有\(n\)个车站,从\(1\)到\(n\)编号,车站\(i\)初始有\(a_i\)个人。在每个小时结束的前几分钟,车站\(i\)会新增\(b_i\)个人。玩家有无限辆容量为\(k\)的火车。玩家在每个小时的中间(也就是\(\mathrm{30min,1h30min,2h30min...}\))可以让任意......
  • 一个批处理,解决你重装python第三方模块的烦恼~(1.0版本)
    @echooffpipconfigsetglobal.index-urlhttps://pypi.tuna.tsinghua.edu.cn/simplepython-mpipinstall--upgradepippipinstallpyinstallerpipinstallpygamepipinstalljiebapipinstallpandaspipinstallbeautifulsoup4pipinstallrequestspipinstallnumpy......
  • 一些花里胡哨的批处理程序~
    修改开机文字(须以管理员身份运行):@echooffset/pcaption=开机时显示的标题:set/pcontents=开机时显示的内容:regadd"HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\WindowsNT\CurrentVersion\Winlogon"/v"LegalNoticeCaption"/d"%caption%"/tREG_SZ/fregadd&......
  • powershell随笔
    目录powershell随笔字符串相关函数-match-replace格式化操作子表达式资源网站powershell随笔忘记时来看。。。字符串相关函数-match#Format[value]#LogicMatchesatleastoneofthecharactersinthebrackets."big"-match"b[iou]g"Powershell-Regular......
  • 聊聊日志聚类算法及其应用场景
    阅读《基于FlinkML搭建的智能运维算法服务及应用》一文后,对其中日志聚类算法有了些思考。概述日志聚类,简而言之是对海量日志的分析;其分析处理链路可以分为如下流程:日志采集->预处理->分词和特征表示->聚类和标注。算法模型分析针对如上的链路流程做一个拆分叙述。日......
  • CSS2.1规范笔记——8.2 外边距与margin合并
    外边距margin取值<length>:一个固定值<percentage>:百分比根据当前生成盒的包含块的width来计算。注意,margin-top和margin-bottom也是根据其包含块的width来计算的。如果包含块的width取决于该元素,那么产生的布局在CSS2.1是未定义的。auto:具体见“计算width与margin”章节。m......
  • CSS2.1规范笔记 - 8.1 盒尺寸
    中文链接:http://www.ayqy.net/doc/css2-1/cover.html英文链接:https://www.w3.org/TR/2011/REC-CSS2-20110607/本笔记是2020年自学前端时所写,当时写在word文档上,今天重温,就搬到博客园上来。盒尺寸盒模型的组成css盒模型描述了一个为文档树中的元素生成的,根据视觉格式化模型进......
  • 晶晨刷机工具usb burning tool刷机卡住
    解决方法使用usb双公头线,不要使用typec线直接连笔记本AMD平台使用usb3.0接口软件一检测到设备就可以断开短接点了,不用一直短接......
  • P1679 神奇的四次方数 题解
    思路先枚举出\(n\)以内的4次方数然后dp.代码#include<bits/stdc++.h>#definelllonglong#defineldlongdouble#definemin(x,y)(x<y?x:y)usingnamespacestd;inlinevoidread(int&x){ x=0; shortflag=1; charc=getchar(); while(c<'0'......
  • windows是使用命令kill进程
    参考:https://blog.csdn.net/zaizuxuan/article/details/126950788根据进程名找到进程例如python进程PSC:\Users\27467>tasklist|findstrpythonpython.exe7088Console23,364Kpython.exe1580Cons......