简介
ERNIE 3.0 融合了自回归和自编码,在由纯文本和大规模知识图谱组成的 4TB 语料库上训练大规模知识增强模型,传播了自然语言理解、自然语言生成和知识提取三个任务范式。
框架
自然语言处理的不同任务范式始终依赖于相同的底层抽象特征,例如词汇信息和句法信息,但顶级具体特征的要求是不相容的,其中自然语言理解任务具有学习语义连贯性的倾向,而自然语言生成任务期望进一步的上下文信息。
流行的统一预训练策略是不同任务采用共享的transformer网络,并用特定的自注意力掩码来控制预测条件的上下文。
与流行的统一预训练策略不同,ERNIE 3.0 设计了一个新的连续多范式统一预训练框架。
考虑到传统的较低层在所有任务之间共享,而顶层是特定于任务的。ERNIE 3.0 采用了通用表示模块和两个任务特定表示模块的协作架构,即自然语言理解(NLU)特定表示模块和自然语言生成(NLG)特定表示模块,使不同的任务范式能够共享在共享网络中学习到的底层抽象特征并分别利用在他们自己的特定于任务的网络中学习到的特定于任务的顶层具体特征。
通用表示模块
ERNIE 3.0 使用多层Transformer-XL
作为主干网络(类似于Transformer,但引入了一个辅助递归记忆模块来帮助建模更长的文本,记忆模块只对控制注意力掩码矩阵的自然语言生成任务有效)。
任务特定表示模块
任务特定表示模块也是使用一个基础模型大小的多层Transformer-XL
。两个特定任务分别为自然语言理解(双向建模
)和自然语言生成(单向建模
)。
预训练任务
单词感知预训练任务
1.知识掩码语言建模:ERNIE 1.0 通过知识集成来增强表示。它引入了短语掩码和命名实体掩码来帮助模型了解本地上下文和全局上下文的依赖关系信息。
2.文档语言建模:生成式预训练模型通常使用传统的语言模型(GPT等)或序列到序列的语言模型(BART等)作为预训练任务,ERNIE 3.0 选择传统的语言模型作为预训练任务,来降低网络复杂性。同时,为了使NLG网络能够对较长的文本进行建模,ERNIE 3.0 引入了ERNIE-Doc中提出的增强递归记忆机制,通过将向下移动一层的递归更改为同一层递归,它可以比传统递归 Transformer 建模更大的有效上下文长度。
结构感知预训练任务
1.句子重排序:ERNIE 2.0 引入的句子重排序旨在通过重新组织排列的片段来学习句子之间的关系。在预训练期间,将给定段落随机分为1到m个片段,并随机排列,建模为k分类问题。
2.句子距离:它是下一句预测任务的扩展,建模为3分类问题:两个句子相邻、两个句子不相邻,但分别位于同一文档和两个不同的文档中。
知识感知预训练任务
为了将知识整合到预训练语言模型中,引入了通用知识文本预测,它是知识掩码语言模型的扩展。
给定一对来自知识图谱的三元组和来自百科全书的相应句子,随机掩盖三元组中的关系或句子中的单词进行预测, 这个过程的本质类似于关系提取任务中的远程监督算法(远程监督算法假定,如果两个实体参与一个关系,则包含这两个实体的任何句子都可能表示该关系)。