强大的中文分词器--结巴分词（java版）

时间：2023-07-22 19:26:14浏览次数：53

标签：jieba java -- 模式分词照明灯分词器奥利词典

简介

原生jieba分词是强大的Python组件，可以用来进行关键词提取，标注以及定位。

java版支持三种模式

精确模式：试图将句子最精确地切开，适合文本分析；
全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词

使用

导入maven依赖

项目地址:https://github.com/hexuefengx/jieba-analysis

com.huaban
jieba-analysis
1.0.2

三种模式使用

准备一段文本 奥利给我是照明灯具普通型安全出口标志灯 DC36V 6W 壁式，看三种模式抽取出的关键词区别

代码
效果
精确模式：["奥利","给","我","是","照明灯","具","普通型","安全","出口","标志灯","DC36V6W","壁式"]
INDEX模式：["奥利","给","我","是","照明","明灯","照明灯","具","普通","普通型","安全","出口","标志","标志灯","dc36v6w","壁式"]
SEARCH模式：["奥利","给","我","是","照明灯","具","普通型","安全","出口","标志灯","dc36v6w","壁式"]
可以看出serch模式和精确模式区别不大

自定义词典

jieba 分词内置了常用词典，在源代码目录下有个dic.txt文件

当内置词典不满足我们的业务场景时，可以自定义词典
词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略)，用空格隔开，顺序不可颠倒

举个栗子，把文本中的奥利给和我是照明灯定义成关键词，就得这样定义
奥利给 50
我是照明灯具 50

新建自定义词典文件：
在resource 目录下新建jiebaCon目录，并新建自定词典文件
加载用户词典文件
效果

动态加载用户词典

思路：从外部读取词典数据，生成临时文件供jieba分词组件使用

代码
效果

实例代码

关注公众号，回复jieba 即可获取源码

标签：jieba,java,--,模式,分词,照明灯,分词器,奥利,词典
From： https://www.cnblogs.com/minesnil-forfaith/p/17573771.html

[解题报告][CF1007E]Mini Metro
Statement传送门有\(n\)个车站，从\(1\)到\(n\)编号，车站\(i\)初始有\(a_i\)个人。在每个小时结束的前几分钟，车站\(i\)会新增\(b_i\)个人。玩家有无限辆容量为\(k\)的火车。玩家在每个小时的中间(也就是\(\mathrm{30min,1h30min,2h30min...}\))可以让任意......
一个批处理，解决你重装python第三方模块的烦恼~（1.0版本）
@echooffpipconfigsetglobal.index-urlhttps://pypi.tuna.tsinghua.edu.cn/simplepython-mpipinstall--upgradepippipinstallpyinstallerpipinstallpygamepipinstalljiebapipinstallpandaspipinstallbeautifulsoup4pipinstallrequestspipinstallnumpy......
一些花里胡哨的批处理程序~
修改开机文字（须以管理员身份运行）：@echooffset/pcaption=开机时显示的标题:set/pcontents=开机时显示的内容:regadd"HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\WindowsNT\CurrentVersion\Winlogon"/v"LegalNoticeCaption"/d"%caption%"/tREG_SZ/fregadd&......
powershell随笔
目录powershell随笔字符串相关函数-match-replace格式化操作子表达式资源网站powershell随笔忘记时来看。。。字符串相关函数-match#Format[value]#LogicMatchesatleastoneofthecharactersinthebrackets."big"-match"b[iou]g"Powershell-Regular......
聊聊日志聚类算法及其应用场景
阅读《基于FlinkML搭建的智能运维算法服务及应用》一文后，对其中日志聚类算法有了些思考。概述日志聚类，简而言之是对海量日志的分析；其分析处理链路可以分为如下流程：日志采集->预处理->分词和特征表示->聚类和标注。算法模型分析针对如上的链路流程做一个拆分叙述。日......
CSS2.1规范笔记——8.2 外边距与margin合并
外边距margin取值<length>：一个固定值<percentage>：百分比根据当前生成盒的包含块的width来计算。注意，margin-top和margin-bottom也是根据其包含块的width来计算的。如果包含块的width取决于该元素，那么产生的布局在CSS2.1是未定义的。auto：具体见“计算width与margin”章节。m......
CSS2.1规范笔记 - 8.1 盒尺寸
中文链接：http://www.ayqy.net/doc/css2-1/cover.html英文链接：https://www.w3.org/TR/2011/REC-CSS2-20110607/本笔记是2020年自学前端时所写，当时写在word文档上，今天重温，就搬到博客园上来。盒尺寸盒模型的组成css盒模型描述了一个为文档树中的元素生成的，根据视觉格式化模型进......
晶晨刷机工具usb burning tool刷机卡住
解决方法使用usb双公头线，不要使用typec线直接连笔记本AMD平台使用usb3.0接口软件一检测到设备就可以断开短接点了，不用一直短接......
P1679 神奇的四次方数题解
思路先枚举出\(n\)以内的4次方数然后dp.代码#include<bits/stdc++.h>#definelllonglong#defineldlongdouble#definemin(x,y)(x<y?x:y)usingnamespacestd;inlinevoidread(int&x){ x=0; shortflag=1; charc=getchar(); while(c<'0'......
windows是使用命令kill进程
参考：https://blog.csdn.net/zaizuxuan/article/details/126950788根据进程名找到进程例如python进程PSC:\Users\27467>tasklist|findstrpythonpython.exe7088Console23,364Kpython.exe1580Cons......