首页 > 其他分享 >论文阅读:End to End Chinese Lexical Fusion Recognition with Sememe Knowledge

论文阅读:End to End Chinese Lexical Fusion Recognition with Sememe Knowledge

时间:2024-07-31 12:28:33浏览次数:15  
标签:End sememe Chinese 模型 注意力 BiAffine 解码器 Sememe 节点

模型

  • 论文中提出的模型旨在联合处理提及词汇共指关系
  • 该模型由一个编码器、一个用于提及识别的CRF解码器和一个用于共指识别的BiAffine解码器组成。
  • 此外,利用HowNet的sememe知识增强了编码器。

基础模型

  • 编码器:利用 BERT 作为基本编码器:

\[h_1 ... h_n = BERT(c_1,...,c_n) \]

  • 提及识别:利用CRF解码器获取序列标记输出。这有助于识别所有提及的词汇,包括融合词和分离词。(\(L_{mention}\)训练目标是最小化 gold-standard tagging sequence 的交叉熵)
  • 共指识别:在确定提及对是否为共指关系时,模型利用了BiAffine解码器。(\(L_{coref}\)采用平均交叉熵损失
  • 联合训练:将两个子任务的损失合并在一起进行联合训练。(\(L_{joint} = L_{mention} + \alpha L_{coref}\))

Sememe加强模型

从HowNet构建Sememe。字符表示的语义通过两个步骤获得:
1)首先,通过其sememe图和其源词的位置偏移得到sememe表示

  • 使用GAT构建sememe图。
  • 第二部分是通过嵌入意义源词的位置偏移直接获得的。 位置偏移量用 [s,e] 表示,其中 s 和 e 表示源词的开始和结束字符与当前字符的相对位置。
  • 接下来,我们将这两个部分连接起来,得到意义表示。

2)然后,通过全局注意力,聚合所有意义表示以达到字符级表示,从而产生 sememe 增强编码器。

补充

BiAffine解码器

BiAffine解码器的核心思想是利用双仿射(BiAffine)关系来对元素对之间的潜在关系进行建模和评分。BiAffine解码器通常接受来自神经网络(如LSTM或Transformer)的上下文化特征表示作为输入。

  • 特征提取:从输入文本中提取特征,通常这一步是通过预训练的模型(如BERT)来完成的。
  • 仿射变换:对提取的特征进行两次不同的仿射变换,生成两组向量。每组向量代表文本中的每个元素(如单词或字符)。
  • BiAffine操作:将两组向量通过双仿射操作结合起来,生成一个关系矩阵。矩阵中的每个元素表示一对元素之间的关系得分。
  • 解码和链接:根据关系矩阵中的得分,进行解码操作,确定元素对之间的关系(如是否共指、依存关系类型等)。
  • 优化:通过训练数据优化模型参数,使得模型能更准确地识别和预测元素之间的真实关系。

GAT:图注意力网络

GAT是一种专门用于处理图结构数据的深度学习模型。它的核心是注意力机制,它允许模型聚焦于重要的节点,并动态地从邻近节点聚合信息:

  • 节点表示:每个节点都有一个向量表示,这些表示可以是节点的特征或者是经过嵌入的低维向量。
  • 注意力系数的计算:对于每一对节点,GAT通过一个可学习的函数(通常是一个小型的神经网络)来计算它们之间的注意力系数。这个系数决定了在聚合邻居节点信息时,每个邻居节点的重要性。
  • 加权特征聚合:每个节点会根据计算出的注意力系数,从其邻居节点中聚合信息。这意味着每个节点的更新表示是其邻居节点表示的加权和,权重即为注意力系数。
  • 多头注意力:为了增强模型的表达能力,GAT通常会采用多头注意力机制,类似于Transformer模型。通过多个独立的注意力机制并行处理信息,然后将结果聚合,可以提高学习的稳定性和性能。
  • 非线性激活:聚合完邻居节点信息后,通常会应用非线性激活函数(如ReLU),以增加模型的非线性表达能力。

Liu Y, Zhang M, Ji D. End to end Chinese lexical fusion recognition with sememe knowledge[J]. arXiv preprint arXiv:2004.05456, 2020.

标签:End,sememe,Chinese,模型,注意力,BiAffine,解码器,Sememe,节点
From: https://www.cnblogs.com/zinger/p/18334377

相关文章

  • ImportError:无法从“keras.backend”导入名称“tensorflow_backend”
    我决定看看聊天中神经网络的实现,并尝试在我的计算机上运行代码,但不幸的是没有发生任何事情......这是控制台输出:Traceback(mostrecentcalllast):File"C:\Users\akkenrl\Voice_ChatBot\bot.py",line19,in<module>fromtext_to_textimportTextToTextFile"......
  • 10个append()函数在Python程序开发中的创新应用
    文末赠免费精品编程资料~~在Python编程的世界里,append()函数是列表操作中最常见的方法之一。它允许我们在列表的末尾添加一个元素,这一简单的功能却能激发无限的创造力。今天,我们将探讨append()函数在Python程序开发中的10种创新应用,从基本用法到高级技巧,逐步深入。1.构......
  • 部署 Blender 脚本以用作 Web 服务器上的 api
    我在Nextjs中有一个网站和一个混合器脚本,它获取图像、纹理图像并将它们合并在一起,同时应用一些视觉效果(如深度)、渲染结果并将渲染结果的png图像返回到前端以供使用网站中的img标签。我制作了一个pythonFlask应用程序,安装了搅拌机,并制定了将搅拌机作为子进程运行的路线,......
  • The Declaration of Independence
    TheDeclarationofIndependenceIntroductionHistoricalContextTheProclamationof1763TheSugarActandStampActTheTownshendActsTheBostonMassacreandTeaPartyTheIntolerableActsTheFirstContinentalCongressTheSecondContinentalCongressPreamb......
  • 机器学习:详解是否要使用端到端的深度学习?(Whether to use end-to-end learning?)
    详解是否要使用端到端的深度学习?假设正在搭建一个机器学习系统,要决定是否使用端对端方法,来看看端到端深度学习的一些优缺点,这样就可以根据一些准则,判断的应用程序是否有希望使用端到端方法。这里是应用端到端学习的一些好处,首先端到端学习真的只是让数据说话。所以如果有足够多......
  • 06_Calendar类_SimpleDateFormat类_System类
    一、Calendar类Calendar的构造方法是protectedCalendar(),由于修饰符是protected,所以无法直接创建该对象,需要使用Calendar.getInstance();创建。其他方法:代码示例:importjava.util.Calendar;publicclassdemo01{publicstaticvoidmain(String[]args){......
  • 论文阅读:Borrowing wisdom from world: modeling rich external knowledge for Chines
    问题定义由于词级中文NER存在第三方解析器分割的边界错误,因此考虑将字符级NER作为默认设置。使用'BMES'标记方案进行字符级NER,将标记表述为序列标记问题。即,对于句子\(s={c_1,...,c_n}\)中的每个字符\(c_i\),使用标签集中的标签进行标记\(L={B,M,E,S,O}\)。O:非实体元素B:实......
  • tkcalendar:日期输入字段颜色
    加载tkinter时,DateEntry框的背景保持白色。我尝试了各种样式,但仍然没有运气。#CreateacustomstyleforDateEntrystyle=ttk.Style(root)style.configure("CustomDateEntry.TCombobox",fieldbackground="#FF9393",background="#FF9393")style......
  • 解决Maven下载包慢,一直显示Resolving Maven dependencies...
    主要原因就是下载的慢,有两个方法,一个是更改源,还有一个是使用代理,推荐使用代理,毕竟使用国内源是二手的,有时候可能更新慢一点。两个方法都是更改conf文件夹中的settings.xml文件,后面就不说是哪个文件了。一、使用阿里镜像改这个位置。<mirror><id>aliyunmaven</id>......
  • 论文阅读:BERT-Based Chinese Relation Extraction for Public Security
    模型框架包含一个BERT模型层(嵌入+编码+池化->得到句子的特征向量)、一个Dropout层(防止过拟合)。基于BERT的预训练模型BERT模型是通过注意力机制对训练集进行处理。然后,通过Embedding层和Encoder层加载预训练的词向量。最后,Pooling层使用BERT模型来训练两个句子。BERT嵌入层......