首页 > 编程语言 >使用ICTCLAS JAVA版(ictclas4j)进行中文分词(附ictclas,停用词表,commons-lang-2.4.jar下载地址)...

使用ICTCLAS JAVA版(ictclas4j)进行中文分词(附ictclas,停用词表,commons-lang-2.4.jar下载地址)...

时间:2023-05-10 17:04:17浏览次数:44  
标签:lang ... ictclas Eclipse 词表 文件夹 org ICTCLAS 分词



一、ICTCLAS的介绍

中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

二、开始使用ICTCLAS进行分词

1.下载ictclasj

首先到ictclas的网站下载JAVA版本的ictclas——ictclasj。

下载地址http://ictclas.org/Down_OpenSrc.asp

2.在Eclipse中 新建项目并进行 配置

首先把 ictclasj解压缩,然后把 Data文件夹整个拷贝到 Eclipse项目的文件夹下, 而 bin目录下的 org文件夹整个拷贝到你 Eclipse项目的 bin目录下,把src目录下的org文件夹整个拷贝到 Eclipse项目 的src目录下。

3.测试分词结果

import org.ictclas4j.bean.SegResult;
import org.ictclas4j.segment.SegTag;public class TextSegmentation {
public static void main(String[] args) {
   String fileContent = "中国科学院计算技术研究所在多年研究基础上," +
     "耗时一年研制出了ICTCLAS汉语词法分析系统";
   SegTag segTag = new SegTag(1);// 分词路径的数目  
   SegResult segResult = segTag.split(fileContent.trim());
   String classifyContent = segResult.getFinalResult();
   System.out.println("分词结果\n"+classifyContent);}
}

就是这样,我们可以得到输出的结果,并且带有词性的标注。

分词结果:
中国科学院/n 计算/n 技术/n 研究所/n 在/c 多年/m 研究/n 基础/a 上/f ,/w 耗时/v 一/d 年/a 研制/v 出/q 了/u ICTCLAS/nx 汉语/n 词法/n 分析/v 系统/a

三、关于可能出现的错误

1.越界错误

在Dictionary.java里面的getMaxMatch()函数里要注意加上对wis的判断语句

if(wis != null)



否则有时会报出越界错误

2. “org.apache”

这个新建的测试类可能会提示错误:"The import org.apache cannot be resolved",这是由于系统需要一个Apache的commons的jar包。


 

附件中有 commons-lang-2.4.jar和停用词表(stopwords.rar)下载 。

标签:lang,...,ictclas,Eclipse,词表,文件夹,org,ICTCLAS,分词
From: https://blog.51cto.com/u_873039/6262748

相关文章

  • fatal: unable to access 'https://gitee.com/...': Could not resolve host: gitee.c
    把https模式换成ssh用gitremote-v查看使用的是https还是ssh等$gitremote-v>originhttps://github.com/USERNAME/REPOSITORY.git(fetch)>originhttps://github.com/USERNAME/REPOSITORY.git(push)使用gitremoteset-url命令将远程URL从HTTPS更改为SSH$gitremote......
  • linux系统异常关机,重启后显示:probing edd (edd=off to disable) ....ok
    机房掉电,linux服务器重启后显示:probingedd(edd=offtodisable)....ok  处理方法一:1、开机选择内核时上下键卡住,根据提示按e进入grub界面2、编辑linux行末尾添加edd=off3、ctrl+x 处理方法二:1、使用U盘进入救援模式,切换命令行界面,挂载系统磁盘chroot/mnt/sysim......
  • java.lang.OutOfMemoryError: PermGen space
    项目环境:tomcat:7.0jdk:1.7  我项目中出现这个问题,是一个tomcat中放了好几个不同的项目,同时使用这一个tomcat,导致的永久代内存溢出。减少项目的数量或者调解jvm参数。  主要想说的一点是,查问题看日志,tomcat看catalina.out日志文件比较全面。  ~~~~~~~~~~可以忽略~......
  • context sample in golang
    packagemainimport("context""fmt""sync""time")funcroutine(idint,ctxcontext.Context,msgchanint,wg*sync.WaitGroup){deferwg.Done()fmt.Println("routine",id)......
  • golang获得基础硬件信息
    packageutilsimport("runtime""time""github.com/shirou/gopsutil/v3/cpu""github.com/shirou/gopsutil/v3/disk""github.com/shirou/gopsutil/v3/mem")const(B=1KB=1024*BMB=1024*......
  • golang的zap日志切割
    packageinternalimport("github.com/flipped-aurora/gin-vue-admin/server/global"rotatelogs"github.com/lestrrat-go/file-rotatelogs""go.uber.org/zap/zapcore""os""path""time")varF......
  • Method com/mysql/jdbc/JDBC4ResultSet.getObject(Ljava/lang/String;Ljava/lang/Clas
      mybatis-plus生成的日期类型默认是localdatetime,数据库是datetime,按道理转换应该可以,我又不想把实体类转换成date查看依赖<--locadate/locadatetime的时间依赖--><dependency><groupId>org.mybatis</groupId><artifactId>mybatis-ty......
  • golang中xorm自动维护表结构自动导入数据的实现
    Xorm简介Go标准库提供的数据库接口database/sql比较底层,使用它来操作数据库非常繁琐,而且容易出错。因而社区开源了不少第三方库,有各式各样的ORM(ObjectRelationalMapping,对象关系映射库),如gorm和xorm。其中xorm是一个简单但强大的ORM库,使用它可以大大简化我们的数据库操作,笔......
  • Golang GMP原理(2)
    GMP调度场景场景1P拥有G1,M1获取P后开始运行G1,G1使用gofunc创建G2,为了局部性G2优先加入到P1的本地队列场景2G1运行完成后(函数:goexit),M上运行的goroutine切换为G0,G0负责调度时协程的切换(函数:schedule)。从P的本地队列取G2,从G0切换到G2,并开始运行G2(函数:execute)。实现了线程......
  • java.lang.IllegalStateException: Failed to check the status of the service 的解
    参考资料java.lang.IllegalStateException:Failedtocheckthestatusoftheservice的解决办法_Hello_World_QWP的博客-CSDN博客环境条件springcloud,注册中心用的是zookeeper;报错原因@ReferenceprivateXXXServicexxxService;解决方法@Refe......