首页 > 编程语言 >Java代码工具之中英文语句分词

Java代码工具之中英文语句分词

时间:2023-02-21 23:01:15浏览次数:39  
标签:语句 Java 代码 英文 工具 com 分词

在自然语言处理中比较热门的操作就是中文或英文语句分词了,分词就是按照不同的算法和参数将语句分成若干词汇。拆分后的关键词可以进行词频统计或者词云图片生成等,能够快速方便的找到语句的核心主题热点。

在java开发中,如果单纯进行原始功能开发,分词功能耗时耗力,效果不一定能达到理想结果。有一个比较流行的代码工具平台“昂焱数据”,其官方网址为www.ayshuju.com。上面有封装好的各种功能代码工具。该网站上的“语句分词及相似度对比”java代码工具可以直接使用,中文语句分词支持的分词算法包括Lucene、Ansj、corenlp、HanLP、IKAnalyzer、Jcseg、Jieba、mmseg4j、MYNLP、Word等10种;英文语句分词支持的分词算法包括IKAnalysis、StanfordNlp等两种主流算法。

下面将“语句分词及相似度对比”工具使用步骤做一下记录:

第一步:下载并安装jar到本地maven库

登录该网站,在“代码工具”一栏找到“语句分词及相似度对比”代码工具,代码工具如下图所示:

Java代码工具之中英文语句分词_java

下载该代码工具并解压,双击“”执行,将提示的maven坐标粘贴到项目的pom文件中即可。

Java代码工具之中英文语句分词_java_02

Java代码工具之中英文语句分词_昂焱数据_03

第二步:将该jar包的maven坐标粘贴到项目的pom文件中

Java代码工具之中英文语句分词_代码工具_04

第三步:完整的测试代码如下

package com.example.demo.test;

import com.angyan.tool.word.base.enums.ChineseTokenizerEnum;
import com.angyan.tool.word.base.enums.EnglishTokenizerEnum;
import com.angyan.tool.word.util.TokenizerUtil;
import java.util.List;

/**
* @author angyankj
*/
public class ParticipleTest {
public static void main(String[] args) {
// 中文文本
String chnContent = "昂焱数据是为IT行业各种角色人员提供丰富的一站式技术资源的平台!";
// 中文分词
String chnResult = TokenizerUtil.getChineseTokenizerResult(ChineseTokenizerEnum.ANSJ, chnContent);
// 打印中文分词结果
System.out.println(chnResult);
// 英文文本
String engContent = "Love is not a maybe thing. You know when you love someone.";
// 英文分词
List<String> engResult = TokenizerUtil.getEnglishTokenizerResult(EnglishTokenizerEnum.IKANALYZER, engContent);
// 打印英文分词结果
System.out.println(engContent);
}
}

中文分词及英文分词的运行结果如下(分词之间以空格隔开):

Java代码工具之中英文语句分词_昂焱数据_05

标签:语句,Java,代码,英文,工具,com,分词
From: https://blog.51cto.com/u_11531153/6077115

相关文章

  • javaweb-filter实现登录拦击功能
    javaweb-filter实现登录拦击功能要求:用户登录了之后才能进入主页,注销的之后就不能进入主页;(在过滤器中实现!)1、用户登录页面实现前端页面代码<%@pagecontentType="text......
  • Java网络编程
    UDP和TCP网络协议,基于Socket的UDP和TCP网络编程的介绍。Author:MsuenbDate:2023-02-21网络基础知识每个计算设备上都有若干个网卡,每个网卡上有(全球唯一)单独的硬件......
  • [Java基础]自动装箱与自动拆箱--为什么整型比较必须用equals?
    偶然在项目里看到了下面这行代码,大家觉得这个if判断会存在什么问题吗?if(129==StatusEnum.OK.getCode()){//其中OK是Integercode=129System.out.println("ok");......
  • 如何利用javaweb实现数据的可视化
    描述之前一直使用html进行网页版的数据库查询啥的,没有图片的参与,也没有将一条条数据变成较为直观的图画形式,这就是来实现以下数据的图画形式了解及基础说明通过查阅资料......
  • Java多线程技能-线程的启动
    java多线程技能技术点:线程的启动如何使线程暂停如何使线程停止线程的优先级线程安全相关的问题进程和线程的定义及多线程的优点进程:进程是受操作系统管理的基本......
  • Java IO模型
    什么是IOIO是输入input输出output的首字母缩写形式,直观意思是计算机输入输出,它描述的是计算机的数据流动的过程;应用程序的IO操作分为两种动作:IO调用和IO执行。IO调用是......
  • 【java 基础】代码在jvm的内存运行流程分析总结
    堆:存储new出来的对象(包括成员变量、数组、方法的地址)栈:正在调用的方法中的局部变量(包括方法的参数)方法区/元空间:.class字节码文件(包括所有方法)publicclassStudentTe......
  • 继承Thread开启多线程下载图片(不推荐,java的单一继承性)
    packagecom.Java;importorg.apache.commons.io.FileUtils;importjava.io.File;importjava.io.IOException;importjava.net.URL;//练习多线程Thread,实现多线程下载图片......
  • 2月21日javaweb学习之MyBatis
    MyBatis是一款优秀的持久层框架,所谓持久层就是负责将数据保存到数据库的那一层代码。(1)MyBatis快速入门,查询user表中所有的数据1.创建user表,添加数据2.创建模块,导入坐标......
  • Java+Jquer实现趋势图
    这一篇主要介绍的是电商网站的统计功能,后台使用的是Java语言,springMvc框架结合前端Jquer,前端趋势展示组件使用的是百度开源框架Echarts,这个应该大家或多或少的都有了解......