预训练模型简要介绍

时间：2022-08-26 17:55:24浏览次数：135

从字面上看，预训练模型（pre-training model）是先通过一批语料进行训练模型，然后在这个初步训练好的模型基础上，再继续训练或者另作他用。这样的理解基本上是对的，预训练模型的训练和使用分别对应两个阶段：预训练阶段（pre-training）和微调（fune-tuning）阶段。

预训练阶段一般会在超大规模的语料上，采用无监督（unsupervised）或者弱监督（weak-supervised）的方式训练模型，期望模型能够获得语言相关的知识，比如句法，语法知识等等。经过超大规模语料的"洗礼"，预训练模型往往会是一个Super模型，一方面体现在它具备足够多的语言知识，一方面是因为它的参数规模很大。

微调阶段是利用预训练好的模型，去定制化地训练某些任务，使得预训练模型"更懂"这个任务。例如，利用预训练好的模型继续训练文本分类任务，将会获得比较好的一个分类结果，直观地想，预训练模型已经懂得了语言的知识，在这些知识基础上去学习文本分类任务将会事半功倍。利用预训练模型去微调的一些任务(例如前述文本分类)被称为下游任务（down-stream）。

以BERT为例，BERT是在海量数据中进行训练的，预训练阶段包含两个任务：MLM（Masked Language Model）和NSP (Next Sentence Prediction)。前者类似"完形填空"，在一句中扣出一个单词，然后利用这句话的其他单词去预测被扣出的这个单词；后者是给定两句话，判断这两句话在原文中是否是相邻的关系。

BERT预训练完成之后，后边可以接入多种类型的下游任务，例如文本分类，序列标注，阅读理解等等，通过在这些任务上进行微调，可以获得比较好的实验结果。

标签：BERT,简要,训练,模型,任务,文本,语料
From： https://www.cnblogs.com/beyoncewxm/p/16628469.html

学习：python 综合训练超市商品管理系统数据库版
......
Visual studio 2017 + EF6 + Oracle 更新模型向导闪退解决办法
问题：从数据库更新模型，点下一步闪退，如图。问题原因：ODACforVisualStudio2017与Oracle.ManagedDataAccess、Oracle.ManagedDataAccess.EntityFramework版本不一致。......
第二章微分方程与差分方程模型
第二章微分方程与差分方程模型2.1常微分方程的求解2.1.1符号解求解例1（符号解）\(y^{\prime\prime}+2y^{\prime}+y=x^{2}\)fromsympyimport*y=symbols('y',......
OSI网络模型
网络模型计算机的网络模型定义了计算机数据的传输过程，当前有以下2种主流模型：国际标准化组织（ISO）制定的一个用于计算机或通信系统间互联的标准体系，一般称为OSI参......
深度学习模型打包动态库给外部调用SOP
一、Onnxruntime1.将DNN模型转换成ONNX格式1.1pytorch->onnx 待补充。。。1.2tensorflow->onnx1.2.1搭建环境1.2.1.1安装tf2onnx pipinstalltf2onnx1.2.......
蔚来杯2022牛客暑期多校训练营10 题解
D.MiReDoSiLa?SoFa![NOI2016]优秀的拆分原题。枚举周期\(k\)，并将位置为\(k\)的倍数的点设为关键点。枚举相邻两个点\(i,i+k\)，并求出\(lcp(S[i...n],S[i+k......
常见的复制模型&分布式系统的挑战事务，一致性与共识
Replication（上）：常见的复制模型&分布式系统的挑战https://mp.weixin.qq.com/s/LB5SR4ypQwDxzueI1ai2KgReplication（下）：事务，一致性与共识https://mp.weixin.qq.com/s/O9Z5e_B......
监督学习集成模型——LightGBM
LightGBM的全称为LightGradientBoostingMachine，即轻量的梯度提升机，由微软在其论文“LightGBM:AHighlyEfficientGradientBoostingDecisionTree”中提出，作为与XGBo......
设备3D模型全景网上虚拟交互展厅强化客户合作意愿
企业展厅是企业对外展示和品牌传播的重要平台，线下实体展厅被迫暂停后，企业品牌触达受众面大大收缩，全景网上数字虚拟展厅基于网络数字空间将企业文化、发展轨迹、产品案......
虚拟人头像模型制作落地场景逐渐增多-深圳华锐视点
随着web3.0在国外走热，以及越来越多的国内外科技巨头推出元宇宙产品，中国虚拟人产业已经从概念级转向产业级应用。，政策加持、产业链完善、用户人群增长、资本追逐，这四大......

预训练模型简要介绍

相关文章

赞助商

阅读排行