首页 > 其他分享 >常用中文分词

常用中文分词

时间:2023-03-22 16:32:00浏览次数:36  
标签:中文 常用 切分 开源 3.0 ICTCLAS 分词


常用中文分词

1. 庖丁解牛分词包,适用于与Lucene整合。
    庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。
    Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。
    Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。
    高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。
    采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。
    能够对未知的词汇进行合理解析

2. LingPipe,开源自然语言处理的Java开源工具包。http:/alias-i.com/lingpipe/
    功能非常强大,最重要的是文档超级详细,每个模型甚至连参考论文都列出来了,不仅使用方便,也非常适合模型的学习。
    主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测(Interseting Phrase Detection)、聚类(Clustering)、字符语言建模(Character Language Modeling)、医学文献下载/解析/索引(MEDLINE Download, Parsing and Indexing)、数据库文本挖掘(Database Text Mining)、中文分词(Chinese Word Segmentation)、情感分析(Sentiment Analysis)、语言辨别(Language Identification)等

3. JE分词包
4. LibMMSeg
    采用C++开发,同时支持Linux平台和Windows平台,切分速度大约在300K/s(PM-1.2G),截至当前版本(0.7.1)。
    LibMMSeg没有为速度仔细优化过,进一步的提升切分速度应仍有空间。
5. IKAnalyzer
    IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的正反向全切分算法,是LuceneAnalyzer接口的实现。
    该算法适合与互联网用户的搜索习惯和企业知识库检索,用户可以用句子中涵盖的中文词汇搜索,如用"人民"搜索含"人民币"的文章,这是大部分用户的搜索思维;
    不适合用于知识挖掘和网络爬虫技术,全切分法容易造成知识歧义,因为在语义学上"人民"和"人民币"是完全搭不上关系的。
6. PHPCWS
    PHPCWS 是一款开源的PHP中文分词扩展,目前仅支持Linux/Unix系统。

    PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处理,再使用自行编写的“逆向最大匹配算法”对分词和进行词语合并处理,并增加标点符号过滤功能,得出分词结果。

    ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是中国科学院计算技术研究所在多年研究工作积累的基础上,基于多层隐马模型研制出的汉语词法分析系统,主要功能包括中文分词;词性标注;命 名实体识别;新词识别;同时支持用户词典。ICTCLAS经过五年精心打造,内核升级6次,目前已经升级到了ICTCLAS3.0,分词精度 98.45%,各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan 组织的评测中都获得了多项第一名,是当前世界上最好的汉语词法分析器。

    ICTCLAS 3.0 商业版是收费的,而免费提供的 ICTCLAS 3.0 共享版不开源,词库是根据人民日报一个月的语料得出的,很多词语不存在。所以本人对ICTCLAS分词后的结果,再采用逆向最大匹配算法,根据自己补充的 一个9万条词语的自定义词库(与ICTCLAS词库中的词语不重复),对ICTCLAS分词结果进行合并处理,输出最终分词结果。

    由于 ICTCLAS 3.0 共享版只支持GBK编码,因此,如果是UTF-8编码的字符串,可以先用PHP的iconv函数转换成GBK编码,再用phpcws_split函数进行分词处理,最后转换回UTF-8编码。

标签:中文,常用,切分,开源,3.0,ICTCLAS,分词
From: https://blog.51cto.com/u_2650279/6142960

相关文章

  • idea 中文乱码
    需要注意这两个地方的编码信息有没有修改过:  1.若你的JDK版本为1.7  应该是UTF-8  2.若你的JDK版本下载是1.8时应该是GBK  参考:https://blog.csdn.net/ll......
  • JAVA~适合新手和复习~基础三(集合所有常用方法)
    Java集合框架  1Set和List的区别21.Set接口实例存储的是无序的,不重复的数据。List接口实例存储的是有序的,可以重复的元素。342.Set检索效率低下,删除和......
  • Docker 源和Dockerfile配置及常用镜像部署
    Docker安装和常用命令请看这篇博客Docker源/etc/docker/daemon.json是docker的配置文件,默认没有,需要我们手动创建手动修改vi/etc/docker/daemon.json并填入以下......
  • 基于go/pprof用于常用排序场景下的性能分析
    我们常用的排序常见的有:冒泡选择插入希尔快排归并堆排计数基数桶排序关于排序算法的时间复杂度、空间复杂度这里不加赘述,今天主要分享通过go性能分析工具p......
  • 使用Jieba分词学习PaddleNLP(学习笔记)
    最近疫情肆虐,实现了我在家办公的愿望,也有更多的时间学习了,于是我参加百度深度学习集训营,刚刚接触新领域,以下是我整理的学习笔记,与大家分享:首先是此次的作业帖:​​h......
  • daemon.json 常用配置项
    {"registry-mirrors":["https://fv50tv30.mirror.aliyuncs.com","https://reg-mirror.qiniu.com"],"dns":["114.114.114.114","8.8.8.8"],"dat......
  • 常用Linux命令
    常识图形界面可以右键打开Terminal关于路径路径可以分为两种:相对路径、绝对路径。相对路径:相对首先得有一个参照物(一般就是当前的工作路径);**相对路径的写法:在相对......
  • 用NUnit为.NET程序做测试 --- 常用测试属性之二 Ignore, Explicit
    在前面的学习中,我们一下子写了很多个测试方法,如果我们其中有一个方法没有写完或者不想测试这个方法的话,该怎么办呢?下面介绍一个新的属性[Ignore][Ignore]修饰了测试方法以......
  • 用NUnit为.NET程序做测试 --- 常用测试属性之一 SetUp TearDown TestFixtureSetUp Tes
    在前面的入门中,每个测试类运行良好。但是大家有没有发现代码的重复性太多了。每一个测试类中都是先新建一个Calculate有没有方法可以设置得简单些呢?有!NUnit中有一个属性可......
  • HTML中表单的基本结构与常用控件
    1、form中action的用法例子:1<formaction="https://search.jd.com/search">2<inputtype="text"name="keyword">3<button>去京东买东西</......