首页 > 其他分享 >地址治理-标准地址库动态更新ETL方案设计

地址治理-标准地址库动态更新ETL方案设计

时间:2024-04-08 13:44:26浏览次数:22  
标签:方案设计 人工 更新 关联 标准 地址 addresstool ETL

一个高质量的地址治理项目,背后必然有一份高质量的标准地址库。但是标准地址库的建设工作大量依赖人工作业,由此遗留下3大问题。
首先,人工作业很多都是通过一个小区或者一个街道的扫雷式建设地址库,作业量非常大,成本非常高。关键是会产生大量项目中实际不会用到的地址。
其次,人工作业的局限性,必然会有部分地址的遗漏或者标注错误,后期更新维护成本非常高。
最后,人工作业周期性长,更新一次标准地址库少则一个月,长则半年甚至更长,但是有些地址项目对标准地址库的及时性要求非常高。

本文介绍一种标准地址库动态更新的方案。通过每天将业务地址中没有与标准地址成功关联匹配的地址收集起来,经过ETL流程自动化的规范化工作之后,每天把疑似标准地址的地址数据推送给人工确认就行。这种更新方式更有正对行,减少大量人工作业,并且数据更新频率非常高,能做到T+1更新。

第一步:业务地址汇总:大量非标准的地址数据去重。
第二步:业务地址关联标准地址:依赖addresstool工具,利用api接口或者大数据工具,将业务地址与标准地址进行一对一匹配(具体方法可参考我写的其他文章)。
第三步:未关联(非完全关联)地址汇总。业务地址关联标准地址会有3中情况,完全关联、非完全关联和未关联,后2中情况的地址是需要进一步治理的。
第四步:脏数据过滤。这个可以将各种不符合要求的地址进行过滤,如无地址主体的地址、目前区域外的地址、脏字符串、乱码等。
第五步:地址规范化。这一步主要进行地址分词、地址行政区划补全等操作,尽可能简化后续人工工作量。
第六步:人工审核验证。到这里基本上都是一些书写质量较高的业务地址,人工只需审核地址是否真是存在、地址切词是否正确并进行适当调整修补即可。

地址自动化更新的目的就是为了减少传统方式建标准地址库的工作量,并且提高地址更新的及时性。

如果想了解更多addresstool用法,欢迎关注我的博客
java资源下载

https://download.csdn.net/download/u011024436/89035851

源码学习
https://gitee.com/addresstool/address

使用中有问题或者建议,欢迎联系邮箱[email protected]

标签:方案设计,人工,更新,关联,标准,地址,addresstool,ETL
From: https://www.cnblogs.com/addresstool/p/18120955

相关文章

  • ETL工具-nifi干货系列 第九讲 处理器EvaluateJsonPath,根据JsonPath提取字段
    1、其实这一节课本来按照计划一起学习RouteOnAttribute处理器(相当于java中的ifelse,switchcase控制语句),但是在学习的过程中遇到了一些问题。RouteOnAttribute需要依赖处理器EvaluateJsonPath,所以本节课我们一起来学习下EvaluateJsonPath处理器。如下图所示: 本节课的示例依然......
  • 全栈的自我修养 ———— react未知地址默认导航至404页面
    方法1在根目录上添加一个errorElement{path:'/',element:<Navigateto="/public/index"replace/>,errorElement:<div>errorPage</div>},方法2{path:'*',element:<div>errorPage</di......
  • 操作系统综合题之“分页存储系统,逻辑地址格式 和 页表多少项 和 每项多少位 和 物理空
    一、问题:某系统采用基本分页存储管理策略,拥有逻辑地址空间32页,每页2K,拥有物理地址空间1M。要求1.请写出逻辑地址2.若不考虑访问权限,且页号不放入页表中,请问进程的页表有多少项?每项至少有多少位?3.如果物理空间减少一半,页表结构应做怎么样的改变? 二、参考答案1. 2.进程的......
  • HJ18 识别有效的IP地址和掩码并进行分类统计
    https://www.nowcoder.com/practice/de538edd6f7e4bc3a5689723a7435682?tpId=37&tqId=21241&rp=1&ru=/exam/company&qru=/exam/company&sourceUrl=%2Fexam%2Fcompany&difficulty=undefined&judgeStatus=undefined&tags=&title=题目要点:所有的......
  • 五一假期来临,各地景区云旅游、慢直播方案设计与平台搭建
    一、行业背景经文化和旅游部数据中心测算,今年清明节假期3天全国国内旅游出游1.19亿人次,按可比口径较2019年同期增长11.5%;国内游客出游花费539.5亿元,较2019年同期增长12.7%。踏青赏花和户外徒步成为假期的热门出游主题。随着清明假期的过去以及即将到来的五一小长假,各地景区又将再......
  • 解锁ETLCloud中Kettle的用法
    随着大数据时代的到来,数据的处理和管理成为各行各业不可或缺的一环。ETL(Extract-Transform-Load)工具作为数据处理的重要环节,扮演着将数据从源端抽取出来、经过转换处理,最终加载至目标端的关键角色。在众多ETL工具中,Kettle以其强大的功能和灵活的应用得到了广泛的应用。一、Kettle......
  • 在使用set添加对象的时候,重写了hashcode方法后,为什么equals返回的仍是false,如何理解ha
    /**1.对象的哈希码值和内存地址值不是一回事;*2.如果自定义类不复写Object类中的equals方法,那么equals比较的就是两个对象的内存地址值。*//***下面证明了hash值和内存地址的关系*一、当没有重写hashCode()方法的时候,*S......
  • FJSP:蜣螂优化算法( Dung beetle optimizer, DBO)求解柔性作业车间调度问题(FJSP),提供MAT
    一、柔性作业车间调度问题柔性作业车间调度问题(FlexibleJobShopSchedulingProblem,FJSP),是一种经典的组合优化问题。在FJSP问题中,有多个作业需要在多个机器上进行加工,每个作业由一系列工序组成,每个工序需要在特定的机器上完成。同时,每个机器一次只能处理一个工序,且每个工......
  • 24.4.5C语言学习笔记|访问空间地址【之前一直迷惑的问题】
    1、如何访问一个空间?有名访问无名访问指针的大小跟你的编译器是x64系统还是x86系统有关,%p,打印地址(十六进制)C语言如何用地址来描述一个空间?C语言如何识别变量的属性?定位,先右看,再左看数组:有多少个?每一个怎么存的?高级变形第二个:定位---a5【一个指针,地址,门牌号】怎么访......
  • MPAndroidChart setLabelRotationAngle bug
    MPAndroidChartsetLabelRotationAnglebug(应该包括其他关于修改x/ylabel的bug)库是好库,但就是不更新了。。bug描述:修改labelRotationAngle(setLabelRotationAngle()),手势缩放一下视图,才触发自动调整视图,会导致图表大小发生变化。用起来就是,第一次显示,label被截断,必须手动缩放一......