首页 > 其他分享 >一种融合指代消解序列标注方法在中文人名识别上的应用(下)

一种融合指代消解序列标注方法在中文人名识别上的应用(下)

时间:2024-04-15 10:45:32浏览次数:25  
标签:算法 指代 序列 消解 语料 标注

二、使用了BERT模型和指代消解算法:

  • 加入BERT语言预处理模型,获取到高质量动态词向量。

  • 融入指代消解算法,根据指代词找出符合要求的子串/短语。

【2】融入指代消解算法,根据指代词找出符合要求的子串/短语

image.png

  指代消解算法如图2所示,简单来说,就是考虑文档中子串/短语以及学习子串/短语的可能指代。通过分词器将句子y分割为a~e五个字,将其作为输入传给模型中的BiLSTM模块,然后提取实体识别所需的特征,进行注意力机制任务,将得到的结果进行拼接、剪枝处理,得到可能性最大的指代的子串/短语,进而优化目标。
  这里的指代消解算法是在使用启发式Max-Margin损失函数的基础上,利用增强策略梯度算法工作的。每个行为 a=(c,m) 的概率定义如公式(1)所示, 损失函数定义如公式(2)所示。

image.png

image.png

  为使获得奖励值最大,采用梯度上升法进行参数更新,由于梯度值计算困难,现采用一种梯度估值,定义如公式(3)、(4),进行原文替换。
  调研发现,此处可以引入一个语义匹配层及网页语义知识,来弥补知识库不全覆盖的问题。在此基础上,本文找到一种基于小文本的BERT-NER的中文指代消解框架,它可以获得更高的准确率和更好的效果,同时实现主语补齐的功能,功能实现如图3所示。

image.png

  由于数据中包含人名指代词的文本在海量数据中占比较少,所以本文可进行小文本的模型训练。加入指代消解算法后,将消解前后的舆情公告数据文本进行比较,测验效果见图4。

image.png

【3】融入的指代消解算法,比加入外部语料和字符级特征更通用有效

  当下与本文类似的提高人名识别效率的研究中,多特征BiLSTM-CRF模型(后续简写为多特征模型)识别方法具有代表性,该模型改善了影评中称谓不明等问题,在电影行业上取得了显著效果。
  本文为了体现融合指代消解的序列标注方法更胜一筹,利用人民日报数据集和上市公告数据集,比较融合指代消解的序列标注的方法和加入外部人名语料和特定字符级特征的序列标注的方法,得出融入指代消解的人名识别方法要比加入外部人名语料和特定字符级特征的模型的效果更好。
  所以在一般情况下,融合指代消解的序列标注方法会比其他形式,诸如加入外部人名语料和特定字符级特征的序列标注方法更能改进人名识别的准确率。
  在公共数据集和舆情公告数据集上,融合指代消解的序列标注方法和加入外部人名语料和特定字符级特征方法的比较,前者效果更好。

总结

本文提出的融合指代消解序列标注方法,在以下四个方面有较强的创新性

  • 数据预处理阶段,根据职务变更等有效信息进行数据增强

  • 加入BERT语言预处理模型,获取到高质量动态词向量

  • 融入指代消解算法,根据指代词找出符合要求的子串/短语

  • 融入的指代消解算法,比加入外部语料和字符级特征更通用有效

该算法未来将拓展至机构名、地名以及其他所有以名称为标识的实体,能更好的服务于京东小程序客户体验中的寄收件地址的文本识别中,提高相关识别的准确率。

标签:算法,指代,序列,消解,语料,标注
From: https://www.cnblogs.com/Jcloud/p/18135399

相关文章

  • yolov8_数据集标注
    1labelimg标注1安装labelimg库:安装指令:pipinstalllabelimg(不推荐使用pip方式安装因为会有闪退,直接去github上下载.exe文件直接运行更稳定)启动指令:控制台输入:labelimg如果不能启动 2使用labelimg:修改默认设置:顶部view菜单中勾选住第一个自动保存选项在侧边......
  • objectarx中,修改标注数据之后无效的解决方法
    最近在写objectarx的标注,发现同样的代码,有些标注可以修改成功,但是有些修改之后无效。但是修改颜色之类的可以起效果。能修改成功的标注都是自定义的标注,用默认的标注修改之后就无效,并且返回值也都是eok。修改之后立马去查看标注的顶点数据,发现是修改之后的。但是在等到把对象关闭......
  • 产品中的图标icon切图、标注、团队配合
    产品中的图标icon切图、标注、团队配合切图切图手段切图图标了解切图结构切图命名状态类型知识总结切图界面设计下的重要能力,将界面内元素单独存成透明背景(例如PNG格式)的图片,并且为了不同设备和屏幕分辨率生成多倍数理想结果。切图手段位图输出和矢量图输出,使......
  • python UTF-8解码及脚本头的标注
    在Python中,如果你需要将编码为UTF-8的字节串解码为Unicode字符串,你可以使用内置的str类型的decode方法,或者使用bytes.decode()方法。但通常情况下,如果你已经在Python3中处理字符串,你可以直接将字节串(类型bytes)转换为字符串(类型str)。例如:python#假设我们有以下UTF-8编码的......
  • 目标检测数据集,全部有标注
    目标检测数据集,全部有标注,全部yolo格式,可直接跑训练,省时省心全部是自己采集或者手工标注,一键识别,不走弯路,标注不易可帮助转格式,无缝转成:VOC,COCO等可帮训练数据集大全导航:人体检测:86166张图片人脸检测:35460张图片车辆检测:16977张图片口罩检测:8996张图片安全帽检......
  • 标注工具labelme改造计划
    标注工具labelme改造计划文件列表改造如下所示,由平铺列表改成了树状结构的文件列表,同时能够显示文件个数,及已标注文件个数。支持导出自定义格式添加导出功能,可导出你想要的任意格式,默认情况下提供了一个sample示例。笔者添加了导出yolo格式。当你第一次打开labelme.ex......
  • 学习分词之词性标注
    jieba分词的词性表1.名词(1个一类,7个二类,5个三类)名词分为以下子类:n名词nr人名nr1汉语姓氏nr2汉语名字nrj日语人名nrf音译人名ns地名nsf音译地名nt机构团体名nz其它专名......
  • AutoCAD2024中标注的字体和箭头都很小看不清怎么办?
    在使用AutoCAD绘图的过程中,偶尔会出现标注字体和箭头很小,看不清楚的情况,如下,这种情况一般会出现在我们按照1:1绘图画大型尺寸图纸时,这主要是因为CAD默认的标注样式下,字体和箭头大小默认是2.5,而当图形尺寸较大时,标注文字和箭头相对就太小了,必须放大后才可以看到,下面给大家分享一下......
  • geoserver之shp图层标注样式
    geoserver之shp图层标注样式sld代码由udig生成。sld代码:<?xmlversion="1.0"encoding="GBK"?><sld:StyledLayerDescriptorxmlns="http://www.opengis.net/sld"xmlns:sld="http://www.opengis.net/sld"xmlns:gml="http://www.......
  • 使用fabric.js框选图片区域定位标注图片内容
    仍然是在图片上特定区域根据数值显示不同的颜色的需求,过了这么久,svg图迟迟提供不了,考虑canvas方案。记录比较下canvas及各canvas框架的使用。canvas<!DOCTYPEhtml><html><head><metacharset="UTF-8"/><title>使用JavaScript在图像上选择区域</title></h......