WSA-CNER方法
- 首先,将
输入序列
的每个字映射成一个字向量
; - 然后,将
外部词汇信息
整合到每个字的最终表示中; - 最后,将
字的最终表示
输入到序列建模层
和标签预测层
中,得到最终的预测结果。
输入表示层
- 使用
SoftLexicon方法
将输入序列中每个字的词典匹配结果划分为4个词集(BMES
)。
输入序列为"中国语言学",\(c_3\)代表"语",它对应的词集为:
- B(\(c_3\)) = {"语言"、"语言学"} # 以\(c_3\)开头的词
- M(\(c_3\)) = {"中国语言"} # 包含\(c_3\),且不以\(c_3\)开头的词
- E(\(c_3\)) = {"国语"、"中国语"} # 以\(c_3\)结束的词
- S(\(c_3\)) = {"语"} # 单字词
- 当部分词集向量的取值非常相近或者完全相等时,这些取值就
不能明显地区分
\(c_i\) 在词中所处的位置,导致后续步骤无法充分利用该位置信息。 - 为此,本文在BMES的词向量\(v_i^{ws}(B)\),\(v_i^{ws}(M)\),\(v_i^{ws}(E)\),\(v_i^{ws}(S)\)中分别添加了不同的
可训练参数
,让神经网络能够更灵活地调整这 4 个词集向量的取值,以更好地区分 \(c_i\) 在 词中所处的位置: - 为了充分考虑各个词集
重要程度的不同
,引入词集级注意力机制
,首先自动获取每个词集的重要程度,然后依照重要程度去增强有用的特征并抑制用处不大的特征。 - 最后,对这 4 个词集向量进行
重要度加权
,并将加权后的词集向量整合到每个字的最终表示中
。
序列建模层
序列建模层使用单层Bi-LSTM
,将输入表示层的最终表示序列作为输入,对字和字之间的关系进行特征提取。
标签预测层
使用CRF
进行条件预测。
钟诗胜, 陈曦, 赵明航, 等. 引入词集级注意力机制的中文命名实体识别方法[J]. 吉林大学学报 (工学版), 2022, 52(5): 1098-1105.
标签:中文,词集,词集级,识别方法,ws,输入,序列,向量 From: https://www.cnblogs.com/zinger/p/18334165