首页 > 编程语言 >中文地址智能分词算法-Java版

中文地址智能分词算法-Java版

时间:2024-03-29 10:33:51浏览次数:22  
标签:汉阳区 Java 算法 地址 words 101 分词 road

addresstool用于处理中文地址的分词和匹配,采用NLP分词算法进行中文地址分词 ,在中文地址分词基础上对垃圾地址进行识别,过滤,标记等。根据杂乱的业务地址自动化生成标准中文地址库,并支持随机业务地址关联到标准地址操作,实测速度达到25000条/每秒

今天我们测试一下addresstool的地址分词功能
上代码

    public static void main(String[] args) {
        AddressTool ss = new AddressTool();
        List<String> words;
        //正常地址
        words = ss.cutAddress("湖北省武汉市汉阳区汉阳大道10号花果山5号楼1单元101室");
        System.out.println(words);
        //城市名补全
        words = ss.cutAddress("湖北省武汉汉阳区汉阳大道10号花果山5栋1单元101户");
        System.out.println(words);
        // 省份补全 城市补全
        words = ss.cutAddress("湖北武汉汉阳区汉阳大道10号花果山5号楼1单元101室");
        System.out.println(words);
    }

打印结果

[province:湖北省, city:武汉市, county:汉阳区, road:汉阳大道, road_no:10, aoi:花果山, building:5, unit:1, room:101]
[province:湖北省, city:武汉市, county:汉阳区, road:汉阳大道, road_no:10, aoi:花果山, building:5, unit:1, room:101]
[province:湖北省, city:武汉市, county:汉阳区, road:汉阳大道, road_no:10, aoi:花果山, building:5, unit:1, room:101]

解析速度超级快,完美!

标签:汉阳区,Java,算法,地址,words,101,分词,road
From: https://www.cnblogs.com/addresstool/p/18103266

相关文章

  • 【华为OD机试真题】C卷-虚拟理财游戏(JAVA)
    一、题目描述【华为OD机试真题】C卷-虚拟理财游戏(JAVA)题目描述:在一款虚拟游戏中生活,你必须进行投资以增强在虚拟游戏中的资产以免被淘汰出局。现有一家Bank,它提供有若干理财产品m个,风险及投资回报不同,你有N(元)进行投资,能接收的总风险值为X。你要在可接受范围内选择最优......
  • 2. Java基本语法
    文章目录2.Java基本语法2.1关键字保留字2.1.1关键字2.1.2保留字2.1.3标识符2.1.4Java中的名称命名规范2.2变量2.2.1分类2.2.2整型变量2.2.3浮点型2.2.4字符型char2.2.5Unicode编码2.2.6UTF-82.2.7boolean类型2.3基本数据类型转换2.3.1自动类型转换2.2......
  • 业务地址关联匹配标准地址库-Java
    地名作为最常用的社会公共信息,不仅与人们的日常生活息息相关,而且是政府行政行为、经济建设不可缺少的基础信息资源。在政务系统中有许多需要将业务地址关联到标准地址的场景,addresstool致力于解决地址关联匹配算法中的速度和准确性问题。经实测,addresstool的地址关联速度在5000/秒......
  • 解决import javax.swing.JTable;偶发性复制不了的问题
    解决方法:重写JTable类的键盘监听事件。 /** *20240313addhzh */ table.addKeyListener(newKeyListener(){ @Override publicvoidkeyPressed(KeyEvente){ //System.out.println("22222"); System.out.println("keycode"+e.getKeyCode())......
  • 聊聊 Java GC
    [1]序GC是每一个Java程序员不可绕过的话题。GC是在某些时候对内存的垃圾对象数据进行搜寻定位,然后进行内存空间回收。根据这个定义,则学习GC相关知识,需要关注:对JVM整个内存结构中哪些区域进行垃圾回收;在这些内存区域中的类数据或者实例数据等数据结构是什么样子的;然后想想如......
  • java 16进制转换为ASCII
    /***16进制转换为ASCII**@parambytes源数据*@paramoffset偏移量*@paramlength数据长度*@return{@linkString}*/publicStringconvertHexToAscii(byte[]bytes,intoffset,intlength){StringBuilders......
  • 《手把手教你》系列技巧篇(五十九)-java+ selenium自动化测试 - 截图三剑客 -上篇(详细教
    1.简介今天本来是要介绍远程测试的相关内容的,但是宏哥在操作服务器的时候干了件糊涂的事,事情经过是这样的:本来申请好的Windows服务器用来做演示的,可是服务器可能是局域网的,连百度都不能访问,宏哥想调试一下网络,禁用网卡,然后重启网卡,结果禁用后就连不上了。。。。就只能等服......
  • 《手把手教你》系列技巧篇(六十)-java+ selenium自动化测试 - 截图三剑客 -中篇(详细教程
    1.简介前面我们介绍了Selenium中TakeScreenshot类来截图,得到的图片是浏览器窗口内的截图。有时候,只截浏览器窗口内的图是不够的,而且TakeScreenshot截图只针对浏览器的web事件,假如你在运行脚本过程,windows上有一个其他软件弹出了一个购物的弹窗页面,这个时候就会干扰你......
  • java实现字节数组转int(采用IEEE 754标准)
    /***字节数组转int*采用IEEE754标准**@parambytes*@returnfloat*/publicintbytesToInt(byte[]bytes){//获取字节数组转化成的2进制字符串StringbinaryStr=bytesToBinaryStr(bytes);//符号位......
  • 学习java第二十六天
    Spring是一个开源框架,Spring是一个轻量级的Java开发框架。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为J2EE应用程序开发提供集成的框架。Spring使用基本的JavaBean来完成以前只可能由EJB完成的......