首页 > 其他分享 >Bert变体--Roberta

Bert变体--Roberta

时间:2023-04-17 23:44:53浏览次数:44  
标签:Bert Roberta -- mask SENTENCES NSP 输入

Roberta

论文地址:https://arxiv.org/pdf/1907.11692.pdf

Static vs. Dynamic Masking

Roberta使用动态Mask。

Bert在预处理训练数据时,每个样本会进行一次随机的mask,后续的每个训练步都采用这次mask,实际上就是每个epoch是重复的,被称为静态mask。Roberta在预处理时没有进行mask,而是在每次向模型提供输入时进行随机mask,这意味着mask是变化的、动态的。

Model Input Format and Next Sentence Prediction

Roberta去除了 NSP 任务,更改输入为 FULL-SENTENCES

Bert为了捕捉句子之间的关系,使用了NSP任务进行预训练。论文中对输入与NSP任务设置了下面的两组实验:

使用NSP:
SEGMENT-PAIR+NSP: 输入为连续的两个段落 (Bert)
SENTENCE-PAIR+NSP: 输入为连续的两个句子 (会提升bs,以达到和SEGMENT-PAIR相同token数量)

放弃NSP:
FULL-SENTENCES: 输入为连续的句子,可以跨Doc (Roberta)
DOC-SENTENCES: 输入为连续的句子,不能跨Doc (会略微提升bs,以达到和FULL-SENTENCES相同token数量)

image

large batches,more dataset, pretrain longer

更大 Batch size
image

更多数据,更多epoch
image

byte-level BPE

Bert使用 wordpiece(BPE的一种),用 unicode characters 作为最小子词单元。
Roberta使用 byte-level BPE, bytes 作为最小子词单元

标签:Bert,Roberta,--,mask,SENTENCES,NSP,输入
From: https://www.cnblogs.com/shiiiilong/p/17327977.html

相关文章

  • 冒泡排序
    自然语言解决问题:冒泡排序通过循环将数组中的数字依次进行排序流程图: 具体代码:#include<stdio.h>#defineN10intmain(){inti,j,a[N],t,count=0;printf("请为数组元素赋初值:\n");for(i=0;i<N;i++)scanf("%d",&a[i]);for(i=1;i<=N-1;i++)......
  • 3、ShardingSphere实战(三)
    一、前言:本项目按照时间字段进行分表,需要提前将主表写入数据库优势:1、实现自动建表,且不需要配置SQL2、范围分表查询时自动排除不存在的表 二、项目实战:1、创建主表:CREATETABLE`t_user`(`id`bigint(32)NOTNULL,`name`varchar(255)DEFAULTNULL,`create_a......
  • R语言指数平滑预测法分析南京出租车打车软件空载率时间序列补贴政策可行性
    报告链接:http://tecdat.cn/?p=32161原文出处:拓端数据部落公众号本文通过建立空载率的数学模型,帮助客户来分析出租车的空载率,从而对出租车补贴政策能否提高高峰期的实载率,缓解打车难问题进行了说明。分析思路1.利用这么多天的数据,按照算法先算出每天的日平今年空载率,绘制成曲线......
  • 初学者代码训练Day2(c/c++)
    题目接收两个双精度浮点型数据 a 和 b。输出一个浮点数表示两数相加的结果。(结果保留两位小数)要求:创建两个浮点型变量 a,b。创建两个浮点型指针变量 pa,pb 并分别将其储存的地址设为 a 的地址和 b 的地址。不要使用 a+=b 而是通过指针将变量 b 的值加到变量......
  • React 组件进入和退出动画实现
    在实现一个React中的弹框组件时,想给组件加个进入和退出动画,但发现React没有Vue3那样现成的api,因此需要自己设计。主要思路为给组件添加一个state来选择className,不同的className会给组件添加不同的动画效果,再使用cssanimation中的forwards来使组件固定在结束的位置。核心代码如......
  • 冲刺3
    这个作业属于哪个课程2023软件工程-双学位这个作业要求在哪里团队作业4——项目冲刺这个作业的目标团队项目Scrum冲刺day3目录1.会议1.1今日已完成的工作1.2明日计划完成的工作1.3工作中遇到的困难2.燃尽图3.代码/文档签入记录签入记录对应的Issue内容与链接,代......
  • React redux toolkit: Uncaught Error:[Immer] An immer producer returned a new...
    React在写一个购物车的reduxtoolkit时遇到了问题。核心代码如下:import{createSlice}from"@reduxjs/toolkit";constcartSlice=createSlice({name:'cart',initialState:{cartItems:[],cartItemCount:0},reducers:{......
  • java 日志脱敏处理
    1publicstaticvoidmain(String[]args)throwsException{2Patternpattern=Pattern.compile("[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}");3Stringtext="\"Joe1\"55656kkk;[email protected]&......
  • Redis 报”OutOfDirectMemoryError“(堆外内存溢出)
    Redis报错“OutOfDirectMemoryError(堆外内存溢出)”问题如下:一、报错信息:使用Redis的业务接口,产生OutOfDirectMemoryError(堆外内存溢出),如图:格式化后的报错信息:{ "timestamp":"2023-04-1722:46:36", "status":500, "error":"InternalServerError&q......
  • 时间管理的三大方法(非原创)
    前置技巧:任务拆分,分解技巧周PDCA(周报),日PDCA(日报)   时间“四象”法该理论是由美国的一位管理学家提出,人们可以按照工作的重要和紧急程度,将任务划分成四个象限。 ①紧急且重要:必须马上行动去做,例如抢险救灾。②紧急但不重要:可以按照需求,决定是否去做。比如有人......