addresstool用于处理中文地址的分词和匹配,采用NLP分词算法进行中文地址分词 ,在中文地址分词基础上对垃圾地址进行识别,过滤,标记等。根据杂乱的业务地址自动化生成标准中文地址库,并支持随机业务地址关联到标准地址操作,实测速度达到25000条/每秒
今天我们测试一下addresstool的地址分词功能
上代码
public static void main(String[] args) {
AddressTool ss = new AddressTool();
List<String> words;
//正常地址
words = ss.cutAddress("湖北省武汉市汉阳区汉阳大道10号花果山5号楼1单元101室");
System.out.println(words);
//城市名补全
words = ss.cutAddress("湖北省武汉汉阳区汉阳大道10号花果山5栋1单元101户");
System.out.println(words);
// 省份补全 城市补全
words = ss.cutAddress("湖北武汉汉阳区汉阳大道10号花果山5号楼1单元101室");
System.out.println(words);
}
打印结果
[province:湖北省, city:武汉市, county:汉阳区, road:汉阳大道, road_no:10, aoi:花果山, building:5, unit:1, room:101]
[province:湖北省, city:武汉市, county:汉阳区, road:汉阳大道, road_no:10, aoi:花果山, building:5, unit:1, room:101]
[province:湖北省, city:武汉市, county:汉阳区, road:汉阳大道, road_no:10, aoi:花果山, building:5, unit:1, room:101]
完美!
标签:汉阳区,Java,10,算法,地址,words,101,分词,road From: https://blog.csdn.net/u011024436/article/details/137052842