将深度提示调优框架
与三重知识
(即TKDP)相结合,包括内部上下文知识
和外部标签知识
和语义知识
。
引言
现有的少样本NER可分为3种:基于词-语义的方法
、基于标签-语义的方法
和基于提示的方法
。
- 基于词语义的方法完全依赖于输入词及其上下文。
- 基于标签语义的方法需要额外利用标签知识。
- 基于提示的方法建立在当前的预训练语言模型之上,试图引导模型使用预构建的自然语言模板(即提示文本)识别实体。
模型框架
由五个部分组成,包括输入和编码层
、Sememe集成层
、知识加强的深度提示构建模块
、分层知识注入模块
和输出层
。
输入和编码层
- 包括
两个输入源
:原始文本
\(X={x_1,x_2,...,x_n}\);标签的自然语言描述
\(C={C_1,C_2,...,C_L}\),每个标签描述包含\(l\)个描述词。 - 使用
BERT
的嵌入层对输入文本和标签描述进行编码。
Sememe集成层
- Sememe(义原),即原子语义,是最基本的、不宜再分割的
最小语义单位
。在知网中,一个词被定义为一个或多个senses,每个意义都包含一个或多个sememes。 - 模型使用
两种嵌入方法
,通过是否在语义之间合并结构化信息来区分:
非结构化 Sememe 集成:
- 首先,从
知网
中获取目标词的sememe集
\(S={s_1,s_2,...,s_m}\), - 然后,使用
文本编码器
,得到sememe集的表示
\(H^s={h_1^s,h_2^s,...,h_m^s}\),sememe 词的嵌入在输入句子和标签之间共享。 - 接着,使用
注意力机制
检索与查询词\(h\)相关的sememe,注意力分数由欧几里得距离算出。
- 最后,获得
sememe加强的词嵌入
:\(e=h+\sum_{i=1}^{m} r_i · h_i^s\) - 这样就可以得到
sememe加强的文本表示
\(E^x\)和sememe加强的标签集表示
\(E^C\):
结构化sememe集成:
- 首先,从
知网
中获取目标词的sense图集
\(G\)。 - 接着,对\(G\)进行
编码
,得到感知图的表示集
\(H^g\)。 然后
,用图卷积网络
对感知图进行处理,提取结构化特征,最后输出感知节点的表示,构建感知图集
\(H^S\)。- 后续集成步骤与非结构化Sememe集成一致。
知识加强的深度提示构建模块
接下来,基于\(E^x\)(sememe加强的文本表示)和\(E^C\)(sememe加强的标签集表示)创建知识加强的深度提示表示。
- 首先,使用
两个随机初始化的提示嵌入
\(P^x\)和\(P^C\),与\(E^x\)和\(E^C\)使用注意力机制
进行融合
。(\(P^x\)和\(E^x\)进行融合,\(P^C\)和\(E^C\)进行融合,) - 然后,就可以得到
知识增强的上下文提示
\(Q^x\)和标签提示
\(Q^C\)。 - 最后,将\(Q^x\)和\(Q^C\)
串联
起来,得到知识增强的深度提示
\(Q = [Q^x;Q^C]\)。
将逐层知识注入到 PLM 中
现在,将深度提示
\(Q\)插入到 PLM
的不同层中。使用\(Q_i\)表示\(Q\)的第\(i\)层:
- 将\(Q_i\)与 PLM 的 (i-1) 层的输出 \(O_{i−1}\) 连接起来,作为 PLM 第 i 层的输入。
- PLM 第一层的输入是 \(Q_1\) 和 \(H^x\) 的串联。
输出和学习
最后,利用PLM最后一层的输出\(O_{n_p}\),通过softmax
预测BIO标签序列。
训练目标是,最小化序列 \(y\) 的预测概率与相应真实序列 \(y^g\) 的概率之间的负对数似然损失
。
@ARTICLE{10502152,
author={Liu, Jiang and Fei, Hao and Li, Fei and Li, Jingye and Li, Bobo and Zhao, Liang and Teng, Chong and Ji, Donghong},
journal={IEEE Transactions on Knowledge and Data Engineering},
title={TKDP: Threefold Knowledge-Enriched Deep Prompt Tuning for Few-Shot Named Entity Recognition},
year={2024},
volume={},
number={},
pages={1-14},
keywords={Tuning;Semantics;Task analysis;Labeling;Knowledge based systems;Electronic mail;Surveys;Few-shot learning;HowNet;named entity recognition;prompt tuning},
doi={10.1109/TKDE.2024.3389650}}