首页 > 其他分享 >论文阅读:引入词集级注意力机制的中文命名实体识别方法

论文阅读:引入词集级注意力机制的中文命名实体识别方法

时间:2024-07-31 10:58:38浏览次数:14  
标签:中文 词集 词集级 识别方法 ws 输入 序列 向量

WSA-CNER方法

  • 首先,将输入序列的每个字映射成一个字向量
  • 然后,将外部词汇信息整合到每个字的最终表示中;
  • 最后,将字的最终表示输入到序列建模层标签预测层中,得到最终的预测结果。

输入表示层

  • 使用SoftLexicon方法将输入序列中每个字的词典匹配结果划分为4个词集(BMES)。

输入序列为"中国语言学",\(c_3\)代表"语",它对应的词集为:

  • B(\(c_3\)) = {"语言"、"语言学"} # 以\(c_3\)开头的词
  • M(\(c_3\)) = {"中国语言"} # 包含\(c_3\),且不以\(c_3\)开头的词
  • E(\(c_3\)) = {"国语"、"中国语"} # 以\(c_3\)结束的词
  • S(\(c_3\)) = {"语"} # 单字词
  • 当部分词集向量的取值非常相近或者完全相等时,这些取值就不能明显地区分 \(c_i\) 在词中所处的位置,导致后续步骤无法充分利用该位置信息。
  • 为此,本文在BMES的词向量\(v_i^{ws}(B)\),\(v_i^{ws}(M)\),\(v_i^{ws}(E)\),\(v_i^{ws}(S)\)中分别添加了不同的可训练参数,让神经网络能够更灵活地调整这 4 个词集向量的取值,以更好地区分 \(c_i\) 在 词中所处的位置:
  • 为了充分考虑各个词集重要程度的不同,引入词集级注意力机制,首先自动获取每个词集的重要程度,然后依照重要程度去增强有用的特征并抑制用处不大的特征。
  • 最后,对这 4 个词集向量进行重要度加权,并将加权后的词集向量整合到每个字的最终表示中

序列建模层

序列建模层使用单层Bi-LSTM,将输入表示层的最终表示序列作为输入,对字和字之间的关系进行特征提取。

标签预测层

使用CRF进行条件预测。

钟诗胜, 陈曦, 赵明航, 等. 引入词集级注意力机制的中文命名实体识别方法[J]. 吉林大学学报 (工学版), 2022, 52(5): 1098-1105.

标签:中文,词集,词集级,识别方法,ws,输入,序列,向量
From: https://www.cnblogs.com/zinger/p/18334165

相关文章

  • JetBrains全系列 2024.x 官方中文汉化包文件 v241.230
    JetBrains捷克软件开发公司出品的编程语言集成开发环境,专为软件开发软件编程人员制作的各类应用工具箱,如;PHP集成开发工具PHPStorm,Java整合开发工具IntelliJIDEA,Python集成开发工具PyCharm,HTML/CSS/JS开发工具WebStorm,专为Ruby和Rails开发者准备的IDE工具RubyMine,Obje......
  • sudo是什么意思?sudo的中文意思
    sudo是什么意思?sudo的中文意思--《百度百科》在linux中,sudo全称“superuserdo”,意思为“干超级用户才能干的事”,是一个系统权限管理命令,可以让非root的用户运行只有root才有权限执行的命令“dpkg”是“DebianPackager”的简写。为“Debian”专门开发的套件管理系统......
  • flask定制登入过程 显示中文登录信息
    默认情况下,当未登录的用户尝试访问一个 login_required 装饰的视图,Flask-Login会闪现一条消息并且重定向到登录视图。(如果未设置登录视图,它将会以401错误退出。)登录视图的名称可以设置成 LoginManager.login_view。例如:login_manager.login_view="users.login"......
  • App Inventor 2 低功耗蓝牙 BlueToothLE 拓展中文文档(完整翻译加强版)
    低功耗蓝牙,也称为蓝牙LE或简称BLE,是一种类似于经典蓝牙的新通信协议,不同之处在于它旨在消耗更少的功耗和成本,同时保持同等的功能。因此,低功耗蓝牙是与耗电资源有限的物联网设备进行通信的首选。BluetoothLE扩展需要Android5.0或更高版本。BlueToothLE拓展中文文档入口......
  • QT 中文字符报错乱码 C2001
    由于工作限制QT只能用很早的版本,学QT的时候,使按钮显示字符setText中放入中文字符,编译时报错 网上查了很多方法,主要是字符编码不一致的问题,这里总结一下首先查一下编码是不是UTF-8上方菜单栏中点击工具,在下拉列表里点击选项 在弹出的选项窗口中,进入文本编辑器->行为界面......
  • 省心的笔记软件Notability for Mac v4.4.4中文激活版
    NotabilityMac版是Macos平台上的一款帮助用户备注文件的得力工具,NotabilityMac版可用于注释文稿、草拟想法、录制演讲、记录备注等。它将键入、手写、录音和照片结合在一起,便于您根据需要创建相应的备注。NotabilityforMac(最省心的笔记软件)v4.4.4中文激活版软件下载地......
  • Mocreak Office Installer(Office安装部署工具) v2.3.0.703 中文绿色版
    概述Mocreak是一款一键自动化下载、安装、部署正版Office的办公增强工具。该工具完全免费、无广告、绿色、无毒、简约、高效、安全。软件特点一键快速下载、安装、部署最新版MicrosoftOffice软件。提供简约、高效,且可自定义的图形界面,提升部署效率。支持将Office安装......
  • ElasticSearch第4篇(亿级中文数据量 ElasticSearch与Sphinx建索引速度、查询速度、并发
    经过实测:1.09亿的数据量进行中文检索。ElasticSearch单机的检索性能在0.005~5.6秒之间,此检索速度可满足95%的业务场景(注意:每条ES文档平均65个汉字,数据源取自几千本小说,大部分文档在15~300个汉字之间,不然字数太多索引太大电脑存不下)。前置文章由于本文章的前置操作强依赖于另一篇......
  • tomat 启动项目请求中文乱码 日志乱码
    tomat启动项目请求中文乱码日志乱码tomat启动项目请求中文乱码日志乱码检查tomcat编码检查项目编码检查服务器编码修改catalina.bat测试tomat启动项目请求中文乱码日志乱码项目部署后请求信息中文乱码{""address":"娴嬭瘯","Province":"骞胯タ澹棌鑷......
  • MJ绘图中文版-系统AI绘画/MJ绘画/Dall3原生态系统)全开源AI绘画系统
    MidjourneyAI超强绘画原生态系统完美还原 MidjourneyAI超强绘画原生态系统界面完美还原操作功能统一中文界面功能齐全(支付系统、会员系统、分销系统、支持中转站可自己搭建中转站Midjourney-Proxy-Plus)支持MewAI绘画(MX)艺术二维码、条件生图、多种大模型、多种绘......