首页 > 其他分享 >论文阅读:TKDP: Threefold Knowledge-Enriched Deep Prompt Tuning for Few-Shot Named Entity Recognition

论文阅读:TKDP: Threefold Knowledge-Enriched Deep Prompt Tuning for Few-Shot Named Entity Recognition

时间:2024-07-26 13:19:02浏览次数:9  
标签:... Named Prompt 提示 标签 知识 sememe Shot PLM

深度提示调优框架三重知识(即TKDP)相结合,包括内部上下文知识外部标签知识语义知识

引言

现有的少样本NER可分为3种:基于词-语义的方法基于标签-语义的方法基于提示的方法

  • 基于词语义的方法完全依赖于输入词及其上下文。
  • 基于标签语义的方法需要额外利用标签知识。
  • 基于提示的方法建立在当前的预训练语言模型之上,试图引导模型使用预构建的自然语言模板(即提示文本)识别实体。

模型框架

由五个部分组成,包括输入和编码层Sememe集成层知识加强的深度提示构建模块分层知识注入模块输出层

输入和编码层

  • 包括两个输入源原始文本\(X={x_1,x_2,...,x_n}\);标签的自然语言描述\(C={C_1,C_2,...,C_L}\),每个标签描述包含\(l\)个描述词。
  • 使用BERT的嵌入层对输入文本和标签描述进行编码。

Sememe集成层

  • Sememe(义原),即原子语义,是最基本的、不宜再分割的最小语义单位。在知网中,一个词被定义为一个或多个senses,每个意义都包含一个或多个sememes。
  • 模型使用两种嵌入方法,通过是否在语义之间合并结构化信息来区分:

非结构化 Sememe 集成:

  • 首先,从知网中获取目标词的sememe集\(S={s_1,s_2,...,s_m}\),
  • 然后,使用文本编码器,得到sememe集的表示\(H^s={h_1^s,h_2^s,...,h_m^s}\),sememe 词的嵌入在输入句子和标签之间共享。
  • 接着,使用注意力机制检索与查询词\(h\)相关的sememe,注意力分数由欧几里得距离算出。

\[r_i = \frac{d_i}{\sum_{i=1}^{m}d_i} \]

\[d_i = \sqrt{\sum_{j=1}(h_j-h_{i,j}^s)^2} \]

  • 最后,获得sememe加强的词嵌入:\(e=h+\sum_{i=1}^{m} r_i · h_i^s\)
  • 这样就可以得到sememe加强的文本表示\(E^x\)和sememe加强的标签集表示\(E^C\):

\[E^x = {e_1^x,e_2^x,...,e_n^x} \]

\[E^C = {e_1^C,e_2^C,...,e_L^C} \]

\[E_j^C = {e_{j,1}^C,e_{j,2}^C,...,e_{j,l}^C} \]

结构化sememe集成:

  • 首先,从知网中获取目标词的sense图集\(G\)。
  • 接着,对\(G\)进行编码,得到感知图的表示集\(H^g\)。
  • 然后,用图卷积网络对感知图进行处理,提取结构化特征,最后输出感知节点的表示,构建感知图集\(H^S\)。
  • 后续集成步骤与非结构化Sememe集成一致。

知识加强的深度提示构建模块

接下来,基于\(E^x\)(sememe加强的文本表示)和\(E^C\)(sememe加强的标签集表示)创建知识加强的深度提示表示。

  • 首先,使用两个随机初始化的提示嵌入\(P^x\)和\(P^C\),与\(E^x\)和\(E^C\)使用注意力机制进行融合。(\(P^x\)和\(E^x\)进行融合,\(P^C\)和\(E^C\)进行融合,)
  • 然后,就可以得到知识增强的上下文提示\(Q^x\)和标签提示\(Q^C\)。
  • 最后,将\(Q^x\)和\(Q^C\)串联起来,得到知识增强的深度提示\(Q = [Q^x;Q^C]\)。

将逐层知识注入到 PLM 中

现在,将深度提示\(Q\)插入到 PLM 的不同层中。使用\(Q_i\)表示\(Q\)的第\(i\)层:

  • 将\(Q_i\)与 PLM 的 (i-1) 层的输出 \(O_{i−1}\) 连接起来,作为 PLM 第 i 层的输入。
  • PLM 第一层的输入是 \(Q_1\) 和 \(H^x\) 的串联。

输出和学习

最后,利用PLM最后一层的输出\(O_{n_p}\),通过softmax预测BIO标签序列。
训练目标是,最小化序列 \(y\) 的预测概率与相应真实序列 \(y^g\) 的概率之间的负对数似然损失

\[L = -\frac{1}{n} \sum_{i=1}^{n} \sum_{r \in C_o,r=1}^{L} y_{i,r}^g log y_{i,r} \]

@ARTICLE{10502152,
author={Liu, Jiang and Fei, Hao and Li, Fei and Li, Jingye and Li, Bobo and Zhao, Liang and Teng, Chong and Ji, Donghong},
journal={IEEE Transactions on Knowledge and Data Engineering},
title={TKDP: Threefold Knowledge-Enriched Deep Prompt Tuning for Few-Shot Named Entity Recognition},
year={2024},
volume={},
number={},
pages={1-14},
keywords={Tuning;Semantics;Task analysis;Labeling;Knowledge based systems;Electronic mail;Surveys;Few-shot learning;HowNet;named entity recognition;prompt tuning},
doi={10.1109/TKDE.2024.3389650}}

标签:...,Named,Prompt,提示,标签,知识,sememe,Shot,PLM
From: https://www.cnblogs.com/zinger/p/18325134

相关文章

  • 界面控件Telerik UI for WPF 2024 Q2亮点 - 全新的AIPrompt组件
    TelerikUIforWPF拥有超过100个控件来创建美观、高性能的桌面应用程序,同时还能快速构建企业级办公WPF应用程序。UIforWPF支持MVVM、触摸等,创建的应用程序可靠且结构良好,非常容易维护,其直观的API将无缝地集成VisualStudio工具箱中。本文将介绍界面组件TelerikUIforWPF在今......
  • The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos 论文详
    TheEmergenceofObjectness:LearningZero-ShotSegmentationfromVideos文章目录TheEmergenceofObjectness:LearningZero-ShotSegmentationfromVideos前言摘要1Introduction具体分析1具体分析2具体分析32相关工作3通过外观-运动分解分割具体分析43.1......
  • Prompt设计策略
    前文:由于最近尝试使用prompt来进行大模型推理的时候,发现不同的prompt产生的效果不同,于是调研了几个不同的prompt的写法。先说下我的任务:根据图片生成一个Caption(关于图片的描述)。尝试了几种prompt方法:CRISPE框架、Zero-shot、Few_shot、COT、COT+SC、TOT、Step-Back。CRISPE框架......
  • 单目三维内容生成系列—Zero-1-to-3: Zero-shot One Image to 3D Object
    文章目录1.概述2.背景介绍3.方法3.1学习控制相机视角3.2视角条件扩散3.33D重建3.4数据集4.实验评测4.1任务4.2基线4.3基准和指标4.4新视角合成结果4.53D重建结果4.6从文本到图像到3D5.讨论1.概述我们介绍了Zero-1-to-3框架,该框架仅需一张RGB图像即......
  • 又发现了一个很良心的 prompt 提示词库,简洁,有效,值得学习
    又发现了一个很良心的prompt提示词库,简洁,有效,值得学习。这次的也是一个NB的存在,是Claude提供的提示词库你最近用过claude了吗?claude3.5体验了吗?没有的话,一起带着这些提示词体验下,会惊呆你的。我看完后发现,写的都很简洁啊,不像之前kimi提供的那种模板结构化的......
  • Prompt Hub
    Prompthttps://prompt-guide.ncuos.com/prompts.zhPromptHub是提示的集合,可用于测试prompt在各种基本能力和复杂任务上的能力。我们希望PromptHub帮助您发现利用、实验和构建提示词的有趣方法。我们鼓励并欢迎人工智能研究和开发者社区的贡献。https://www.promptingg......
  • Best practices for prompt engineering with the OpenAI API
    BestpracticesforpromptengineeringwiththeOpenAIAPIhttps://help.openai.com/en/articles/6654000-best-practices-for-prompt-engineering-with-the-openai-api HowpromptengineeringworksDuetothewayOpenAImodelsaretrained,therearespecificpr......
  • ModuleNotFoundError: No module named 'langsmith'
    ModuleNotFoundError:Nomodulenamed'langsmith'使用langchain.llms调用通义千问的api提示报错ModuleNotFoundError:Nomodulenamed'langsmith'简单来说错误信息表明在你的Python环境中存在两个软件包版本之间的冲突具体来说,langchain版本0.0.279要求langsmith的......
  • Prompt Enginnering(提示工程)
    什么是提示工程promptenginnering是提示工程的意思,也有叫指令工程。用白话讲:是我们对GPT说出的话,我们向它提问的信息,就是prompt。官方一点:是我们使用自然语言提示来控制和优化生成式模型(生成式模型例如:OpenAi的GPT-3,GPT-4o)输出的一项技术。对prompt进行优化,可以使我们从生......
  • 【BUG】已解决:ModuleNotFoundError: No module named
    已解决ModuleNotFoundError:Nomodulenamed欢迎来到英杰社区https://bbs.csdn.net/topics/617804998         欢迎来到我的主页,我是博主英杰,211科班出身,就职于医疗科技公司,热衷分享知识,武汉城市开发者社区主理人       ......