论文阅读：引入词集级注意力机制的中文命名实体识别方法

时间：2024-07-31 10:58:38浏览次数：14

WSA-CNER方法

首先，将输入序列的每个字映射成一个字向量；
然后，将外部词汇信息整合到每个字的最终表示中；
最后，将字的最终表示输入到序列建模层和标签预测层中，得到最终的预测结果。

输入表示层

使用SoftLexicon方法将输入序列中每个字的词典匹配结果划分为4个词集（BMES）。

输入序列为"中国语言学"，\(c_3\)代表"语"，它对应的词集为：

B(\(c_3\)) = {"语言"、"语言学"} # 以\(c_3\)开头的词

M(\(c_3\)) = {"中国语言"} # 包含\(c_3\)，且不以\(c_3\)开头的词

E(\(c_3\)) = {"国语"、"中国语"} # 以\(c_3\)结束的词

S(\(c_3\)) = {"语"} # 单字词

当部分词集向量的取值非常相近或者完全相等时，这些取值就不能明显地区分 \(c_i\) 在词中所处的位置，导致后续步骤无法充分利用该位置信息。
为此，本文在BMES的词向量\(v_i^{ws}(B)\)，\(v_i^{ws}(M)\)，\(v_i^{ws}(E)\)，\(v_i^{ws}(S)\)中分别添加了不同的可训练参数，让神经网络能够更灵活地调整这 4 个词集向量的取值，以更好地区分 \(c_i\) 在词中所处的位置：
为了充分考虑各个词集重要程度的不同，引入词集级注意力机制，首先自动获取每个词集的重要程度，然后依照重要程度去增强有用的特征并抑制用处不大的特征。
最后，对这 4 个词集向量进行重要度加权，并将加权后的词集向量整合到每个字的最终表示中。

序列建模层

序列建模层使用单层Bi-LSTM，将输入表示层的最终表示序列作为输入，对字和字之间的关系进行特征提取。

标签预测层

使用CRF进行条件预测。

钟诗胜, 陈曦, 赵明航, 等. 引入词集级注意力机制的中文命名实体识别方法[J]. 吉林大学学报 (工学版), 2022, 52(5): 1098-1105.

标签：中文,词集,词集级,识别方法,ws,输入,序列,向量
From： https://www.cnblogs.com/zinger/p/18334165

JetBrains全系列 2024.x 官方中文汉化包文件 v241.230
JetBrains捷克软件开发公司出品的编程语言集成开发环境，专为软件开发软件编程人员制作的各类应用工具箱，如；PHP集成开发工具PHPStorm，Java整合开发工具IntelliJIDEA，Python集成开发工具PyCharm，HTML/CSS/JS开发工具WebStorm，专为Ruby和Rails开发者准备的IDE工具RubyMine，Obje......
sudo是什么意思?sudo的中文意思
sudo是什么意思?sudo的中文意思--《百度百科》在linux中,sudo全称“superuserdo”,意思为“干超级用户才能干的事”,是一个系统权限管理命令,可以让非root的用户运行只有root才有权限执行的命令“dpkg”是“DebianPackager”的简写。为“Debian”专门开发的套件管理系统......
flask定制登入过程显示中文登录信息
默认情况下，当未登录的用户尝试访问一个 login_required 装饰的视图，Flask-Login会闪现一条消息并且重定向到登录视图。(如果未设置登录视图，它将会以401错误退出。)登录视图的名称可以设置成 LoginManager.login_view。例如:login_manager.login_view="users.login"......
App Inventor 2 低功耗蓝牙 BlueToothLE 拓展中文文档（完整翻译加强版）
低功耗蓝牙，也称为蓝牙LE或简称BLE，是一种类似于经典蓝牙的新通信协议，不同之处在于它旨在消耗更少的功耗和成本，同时保持同等的功能。因此，低功耗蓝牙是与耗电资源有限的物联网设备进行通信的首选。BluetoothLE扩展需要Android5.0或更高版本。BlueToothLE拓展中文文档入口......
QT 中文字符报错乱码 C2001
由于工作限制QT只能用很早的版本，学QT的时候，使按钮显示字符setText中放入中文字符，编译时报错网上查了很多方法，主要是字符编码不一致的问题，这里总结一下首先查一下编码是不是UTF-8上方菜单栏中点击工具，在下拉列表里点击选项在弹出的选项窗口中，进入文本编辑器->行为界面......
省心的笔记软件Notability for Mac v4.4.4中文激活版
NotabilityMac版是Macos平台上的一款帮助用户备注文件的得力工具，NotabilityMac版可用于注释文稿、草拟想法、录制演讲、记录备注等。它将键入、手写、录音和照片结合在一起，便于您根据需要创建相应的备注。NotabilityforMac(最省心的笔记软件)v4.4.4中文激活版软件下载地......
Mocreak Office Installer(Office安装部署工具) v2.3.0.703 中文绿色版
概述Mocreak是一款一键自动化下载、安装、部署正版Office的办公增强工具。该工具完全免费、无广告、绿色、无毒、简约、高效、安全。软件特点一键快速下载、安装、部署最新版MicrosoftOffice软件。提供简约、高效，且可自定义的图形界面，提升部署效率。支持将Office安装......
ElasticSearch第4篇（亿级中文数据量 ElasticSearch与Sphinx建索引速度、查询速度、并发
经过实测：1.09亿的数据量进行中文检索。ElasticSearch单机的检索性能在0.005~5.6秒之间，此检索速度可满足95%的业务场景（注意：每条ES文档平均65个汉字，数据源取自几千本小说，大部分文档在15~300个汉字之间，不然字数太多索引太大电脑存不下）。前置文章由于本文章的前置操作强依赖于另一篇......
tomat 启动项目请求中文乱码日志乱码
tomat启动项目请求中文乱码日志乱码tomat启动项目请求中文乱码日志乱码检查tomcat编码检查项目编码检查服务器编码修改catalina.bat测试tomat启动项目请求中文乱码日志乱码项目部署后请求信息中文乱码{""address":"娴嬭瘯","Province":"骞胯タ澹棌鑷......
MJ绘图中文版-系统AI绘画/MJ绘画/Dall3原生态系统）全开源AI绘画系统
MidjourneyAI超强绘画原生态系统完美还原 MidjourneyAI超强绘画原生态系统界面完美还原操作功能统一中文界面功能齐全（支付系统、会员系统、分销系统、支持中转站可自己搭建中转站Midjourney-Proxy-Plus）支持MewAI绘画（MX）艺术二维码、条件生图、多种大模型、多种绘......

论文阅读：引入词集级注意力机制的中文命名实体识别方法

WSA-CNER方法

输入表示层

序列建模层

标签预测层

相关文章

赞助商

阅读排行