首页 > 其他分享 >论文阅读:基于多通道自注意力机制的电子病历实体关系抽取

论文阅读:基于多通道自注意力机制的电子病历实体关系抽取

时间:2024-05-16 19:56:44浏览次数:20  
标签:抽取 权重 病历 多通道 嵌入 类别 注意力 向量

宁尚明, 滕飞, 李天瑞. 基于多通道自注意力机制的电子病历实体关系抽取[J]. 计算机学报, 2020, 43(5): 916-929.

本文的主要贡献

  • 一种更为高效的神经网络架构:recurrent + transformer。"recurrent + CNN"是当前医学文本领域实体关系抽取任务的主流建模方法,为进一步建模表征更全面的句级别语义特征,缓解电子病历实体关系交错关联等难题,并考虑整体网络的训练效率,本文提出复杂度更低的"recurrent + transformer"网络架构,其recurrent层指代循环神经网络或其相关变种网络,transformer层则由注意力机制具体实现。
  • 一种更有效的自注意力机制:多通道自注意力机制。区别于传统自注意力机制,该方法通过学习多组权重向量来拟合更为丰富的句级别语义信息,从而提升模型对电子病历高密度实体分布以及复杂实体关系的特征学习能力。
  • 两种基于权重的辅助训练方法:带权学习的交叉熵损失函数以及基于权重的位置嵌入。前者用于缓解实体关系类别不均衡所造成的训练偏置问题,从而提升模型在真实分布数据中的普适性,同时可加速模型在参数空间的收敛速率;后者则用于进一步放大文本字符位置信息的重要性,以辅助提升transformer网络的训练效果。

模型介绍

  • 输入层:原始电子病历文本按空格切分作为输入。
  • 多嵌入层:包括传统词嵌入层与本文所提出的基于权重的位置嵌入层。词嵌入层的输入为预训练词向量,位置嵌入层的参数矩阵通过随机初始化参与模型训练,两种嵌入层的输出向量进行拼接作为原始文本低层特征的向量表示。
  • 底层特征抽取器:BiLSTM作为本文模型recurrent层的具体实现,作用于多嵌入层的输出,以捕捉文本序列的长短依赖特征。
  • 高层特征抽取器:引入多通道自注意力机制作为BLSTM-MCatt中transformer组件的具体实现,作用于BiLSTM网络之后,通过拟合多组权重向量来捕捉句级别高层特征。
  • 带权学习的损失函数:推导并制定出一套有效的类别权重计算方法,各类别权重作为参数向量与交叉熵损失函数共同参与训练。类别权重信息的引入,可摒弃人工采样所引入的随机误差,保证原生医学实体关系的固有分布。

Recurrent层——BiLSTM

  • LSTM是一种RNN的变体,旨在解决传统RNN中的长期依赖问题。传统RNN在处理长序列时,很难捕捉到远距离的依赖关系。LSTM通过引入门控机制来解决这个问题。
  • BiLSTM是在LSTM的基础上进行改进的,它引入了一个额外的反向LSTM来处理序列的反向信息。这样,BiLSTM可以同时考虑到过去和未来的上下文信息,从而更好地捕捉序列中的依赖关系。

transformer层——多通道自注意力机制

  • "通道"是指对句子施加一次注意力机制并输出一维注意力权重向量,因此"多通道"是指MCatt将同时对目标句进行多次注意力操作,并产生多组权重向量。
  • 多通道注意力机制的工作流程及原理如下:
    • BiLSTM将学习到的长短距离依赖信息进行拼接,并输出隐藏层向量Zt。
    • BiLSTM的输出Zt将作为多通道自注意力的输入。给定通道数C,MCatt将在各通道Ci中分别进行一次自注意力权重计算,可看做是目标句子中第i种成份的重要性。在模型的具体实现过程中,本文使用两层感知机来计算权重矩阵。
    • 传统多头自注意力机制是一种通过在相同的层级结构中随机初始化权重矩阵来进行多头学习的方法,以避免模型学习大量冗余信息。在本文中,MCatt通过加入约束项来提高各通道的学习过程的区分度。

基于权重的辅助训练提升方

带权学习的损失函数

  • 本节提出通过在损失函数中引入类别权重来调整各类别对总体损失的贡献比例,从而平衡小类别样本在训练过程中的重要性。
  • 类别权重的设计思路依赖各类别样本原始分布的状况。
    • 若类别i对应的样本数Ni小于全体类别样本数均值,则考虑为其赋予大于1的权重,进而在训练过程中使小类别样本误判惩罚得到放大;反之,则赋予小于1的权重。
    • 类别权重的具体计算方式如式(12)所示。
  • 将类别权重加入到softmax常见的交叉熵损失函数中,即得到带权学习的损失函数:
    • 其中t代表当前样本所属类别的onehot编码,m是总类别数,yi表示softmax层将隐藏层向量映射为各类别的概率值。

基于权重的位置嵌入层

  • 词嵌入方法是自然语言处理常用的字词表征手段,而位置嵌入方法的优势和效果已在transformer架构的相关研究中被证实。
  • 对于位置嵌入,首先直接算得各字符与目标实体之间的相对距离p。
  • 对句中所有字符进行相对距离计算后可得到两组位置向量:Sen1和Sen2,分别代表各字符到句中两个目标实体的相对距离所构成的向量。
  • 类似于 word embedding,每个相对距离 pen1或pen2可通过式(15)被映射为唯一的离散值向量。其中 Ptable 指代位置嵌入表,n 代表用户指定的位置向量维度,类似的,ronehot 是大小为 2L 的 onehot 向量。
  • 本节在传统位置嵌入方法的基础上,提出基于权重的位置嵌入,即为各字符所对应的 e 赋子相应的权重|L/penj|。因此,式(15)可更新为式(16)。
  • 最终,多嵌入层将词嵌入与权重位置嵌入层的向量进行拼接作为最终输出。

标签:抽取,权重,病历,多通道,嵌入,类别,注意力,向量
From: https://www.cnblogs.com/zinger/p/18196454

相关文章

  • 论文阅读:基于预训练模型的关系抽取研究综述
    ELMO模型ELMO的本质思想是通过使用针对语言模型训练好的BiLSTM来构建数据的文本表示。基于语言模型的词表示:传统的词向量表示方法(如word2vec和GloVe)将每个词映射为一个固定的向量,无法处理多义词。ELMo模型通过训练一个语言模型,将每个词的表示作为模型的隐藏状态,根据上下文来推......
  • 论文阅读:融合外部知识的生成式实体关系联合抽取方法
    祝振赫,武虹,高洁,等.融合外部知识的生成式实体关系联合抽取方法[J].计算机技术与发展,2023,33(08):124-130.引言基于传统的机器学习的关系抽取方法主要通过领域专家制定实体关系范式,通过统计和规则等方式进行抽取。许多经典的关系抽取方法都是使用监督学习来获得较好的性能表......
  • 论文阅读:基于长句简化的中文开放关系抽取
    熊建华,韩永国,廖竞,寇露彦,吴昌述.基于长句简化的中文开放关系抽取[J].计算机技术与发展,2023,33(02):203-207+213.目前中文开放关系抽取存在的问题:目前中文开放关系抽取的主要方法都是基于规则和模板的,这些方法需要以自然语言处理工具的处理结果为基础进行抽取。然而自然语......
  • 信译Tinkeditor论新一代BS电子病历编辑器需要具备哪些能力
    笔者从事医疗信息化行业10多年,从事电子病历编辑器的编写工作10余年,对当前热门的B/S架构有一些心得发出来和大家讨论,笔者信译,讨论微信thinkeditor1。1. 是否需要结构化陈旧的自定义字符串格式,虽格式灵活,但需自己编写病历格式解析器,工作量大,容易出错,没有结构化,第三方无法提取数据......
  • 【论文笔记-50~】多语言关系抽取
    ~20111.Across-lingualannotationprojectionapproachforrelationdetection摘要:尽管在过去十年中对关系提取进行了广泛的研究,基于监督学习的统计系统仍然受限,因为它们需要大量的训练数据才能达到高性能。在本文中,我们开发了一种跨语言注释投影方法,该方法利用平行语料库来......
  • m基于FPGA的多通道FIR滤波器verilog实现,包含testbench测试文件
    1.算法仿真效果VIVADO2019.2仿真结果如下:   系统RTL结构如下:   2.算法涉及理论知识概要       多通道FIR(FiniteImpulseResponse)滤波器是一种在数字信号处理中广泛应用的线性时不变滤波技术,尤其适用于多通道音频、视频、图像等多维数据的处理。   ......
  • 低功耗蓝牙系列芯片CH57x,CH58x,CH59x实现蓝牙多通道配对/回连同一台电脑或多台电脑实
    依旧以老朋友CH583为例,我们随便打开一个HID例程,还是以HID_Keyboard例程做讲解:1、直奔主题到我们的库函数初始化函数中去,红圈圈中的SNVAddr配置信息为我们此次配对连接后所获取到的信息存储的地址区,配对信息中包含:对方MAC地址,设备信息,协商所得IRK密钥等关键信息,都会保存到SNVAddr......
  • GoldenGate抽取进程extract延迟处理
    前言一套GoldenGate环境,已经运行了很多年,一直比较正常,Extract抽取进程基本上没有出现延迟的情况,但这次突然出现抽取延迟,其中一个抽取进程延迟高达50个小时左右。 处理过程1.当前有两个抽取进程,分别为:E_HXZG、E_SBFSC,目前出现延迟的是第1个抽取进程。检查该进程的当前状态......
  • Qt/C++音视频开发70-无感切换通道/无缝切换播放视频/多通道流畅切换/不同视频打开无缝
    一、前言之前就写过这个方案,当时做的是ffmpeg内核版本,由于ffmpeg内核解析都是代码实现,所以无缝切换非常完美,看不到丝毫的中间切换过程,看起来就像是在一个通道画面中。其实这种切换只能说是取巧办法,最佳的办法应该是公用一个openglwidget窗体,解码线程那边开两个,第二个解码线程打开......
  • STM32:HAL多通道ADC数据采集
    1、配置ADC,设置5个通道采集2、使能DMA设置为循环模式 生成工程后编写函数1、校准ADC,开启DMA接收,在main函数初始化部分调用#defineADC_MAX_NUM5#defineBTN_BUFF_LEN100staticuint16_tdma_adc_data[BTN_BUFF_LEN*ADC_MAX_NUM];1/**2*@brief校准adc,开......