首页 > 其他分享 >PubMedBERT:生物医学自然语言处理领域的特定预训练模型

PubMedBERT:生物医学自然语言处理领域的特定预训练模型

时间:2023-11-27 09:44:48浏览次数:38  
标签:训练 模型 领域 PubMedBERT 特定 生物医学 自然语言

今年大语言模型的快速发展导致像BERT这样的模型都可以称作“小”模型了。Kaggle LLM比赛LLM Science Exam 的第四名就只用了deberta,这可以说是一个非常好的成绩了。所以说在特定的领域或者需求中,大语言模型并不一定就是最优的解决方案,“小”模型也有一定的用武之地,所以今天我们来介绍PubMedBERT,它使用特定领域语料库从头开始预训练BERT,这是微软研究院2022年发布在ACM的论文。

论文的主要要点如下:

对于具有大量未标记文本的特定领域,如生物医学,从头开始预训练语言模型比持续预训练通用领域语言模型效果显著。提出了生物医学语言理解与推理基准(BLURB)用于特定领域的预训练。

 

https://avoid.overfit.cn/post/02c09a271dd246f4b04421794d87c679

标签:训练,模型,领域,PubMedBERT,特定,生物医学,自然语言
From: https://www.cnblogs.com/deephub/p/17858523.html

相关文章

  • 2023.11.17-20湖北 武汉 2023第五届全国生物医学数据挖掘与计算学术会议拟于2023年1
     2023第五届全国生物医学数据挖掘与计算学术会议拟于2023年11月17日-20日于华中科技大学举行。会议简介:     全国生物医学数据挖掘与计算学术会议是一个专注于生物医学大数据算法、软件与人工智能方法的重要学术盛会。生物医学领域的快速发展导致了大量的生物医学数据......
  • 开源大模型驱动的智能编程与自然语言处理
    随着人工智能技术的不断发展,开源大模型已经成为了一个备受关注的话题。在这些开源大模型中,WizardCoder和WizardLM是两个备受瞩目的项目。本文将重点介绍这两个模型,并突出其中的重点词汇或短语。首先,让我们来了解一下WizardCoder。它是一个基于PyTorch框架的开源代码生成工具,......
  • 自然语言处理(NLP)
    自然语言处理(NLP)是人工智能领域的一个分支,它涵盖了机器理解和生成人类语言的各种技术。NLP的研究主要包括以下部分:词法分析:这是NLP的基础,包括分词、词性标注和命名实体识别等任务。句法分析:它涉及到识别句子的结构,以及词与词之间的依赖关系。语义理解:这是指机器能理解文本的语义含......
  • 自然语言处理预训练——用于预训练BERT的数据集
    为了预训练 14.8节中实现的BERT模型,我们需要以理想的格式生成数据集,以便于两个预训练任务:遮蔽语言模型和下一句预测。一方面,最初的BERT模型是在两个庞大的图书语料库和英语维基百科(参见 14.8.5节)的合集上预训练的,但它很难吸引这本书的大多数读者。另一方面,现成的预训练BERT模型......
  • 自然语言处理预训练——预训练BERT
    原始的BERT有两个版本,其中基本模型有1.1亿个参数,大模型有3.4亿个参数。在预训练BERT之后,我们可以用它来表示单个文本、文本对或其中的任何词元。在实验中,同一个词元在不同的上下文中具有不同的BERT表示。这支持BERT表示是上下文敏感的。......
  • 自然语言处理预训练—— 来自Transformers的双向编码器表示(BERT)
    我们已经介绍了几种用于自然语言理解的词嵌入模型。在预训练之后,输出可以被认为是一个矩阵,其中每一行都是一个表示预定义词表中词的向量。事实上,这些词嵌入模型都是与上下文无关的。让我们先来说明这个性质。 从上下文无关到上下文敏感ELMo(EmbeddingsfromLanguageModels)是......
  • 自然语言处理预训练——词的相似性和类比任务
    在 14.4节中,我们在一个小的数据集上训练了一个word2vec模型,并使用它为一个输入词寻找语义相似的词。实际上,在大型语料库上预先训练的词向量可以应用于下游的自然语言处理任务,这将在后面的 15节中讨论。为了直观地演示大型语料库中预训练词向量的语义,让我们将预训练词向量应用到......
  • 自然语言处理预训练——子词嵌入
    在英语中,“helps”“helped”和“helping”等单词都是同一个词“help”的变形形式。“dog”和“dogs”之间的关系与“cat”和“cats”之间的关系相同,“boy”和“boyfriend”之间的关系与“girl”和“girlfriend”之间的关系相同。在法语和西班牙语等其他语言中,许多动词有40多种变......
  • c5w2_自然语言处理与词嵌入
    自然语言处理与词嵌入词嵌入one-hot向量表示了每个词在词汇表中的位置,但是每个one-hot向量的内积为0,不能表示出每个词之间的相互关系。Iwantaglassoforangejuice.Iwantaglassofapple__.例如,对于上述的这样一句话,通过学习算法可能知道在orange后面填入juice是一......
  • 自然语言处理预训练——全局向量的词嵌入
    带全局语料统计的跳元模型   GloVe模型  从条件概率比值理解GloVe模型 总结诸如词-词共现计数的全局语料库统计可以来解释跳元模型。交叉熵损失可能不是衡量两种概率分布差异的好选择,特别是对于大型语料库。GloVe使用平方损失来拟合预先计算的全局语料库......