首页 > 其他分享 >学习人工智能:Attention Is All You Need-3-训练;结果;结论;Transformer模型相当于 E=MC^2

学习人工智能:Attention Is All You Need-3-训练;结果;结论;Transformer模型相当于 E=MC^2

时间:2024-03-25 16:00:43浏览次数:29  
标签:Transformer MC 训练 模型 Attention WMT 2014 我们

5 训练Training


本节描述了我们模型的训练方案。

5.1 训练数据和批次处理Training Data and Batching


我们在标准的WMT 2014英德数据集上进行了训练,该数据集包含约450万个句子对。句子使用字节对编码[3]进行编码,其共享源-目标词汇表包含约37000个标记。对于英法翻译,我们使用了更大的WMT 2014英法数据集,其中包含3600万个句子,并将标记拆分为一个包含32000个单词片段的词汇表[31]。句子对按近似序列长度进行批次处理。每个训练批次包含一组句子对,其中大约包含25000个源标记和25000个目标标记。

5.2 硬件和训练计划


我们在一台配备8个NVIDIA P100 GPU的机器上训练了我们的模型。对于使用本文描述的超参数的基础模型,每个训练步骤大约需要0.4秒。我们总共训练了基础模型100,000步,或12小时。对于我们的大型模型(表3底部的描述),每步训练需要1.0秒。大型模型训练了300,000步(3.5天)。

5.3 优化器


我们使用了Adam优化器[17],其中β1 = 0.9,β2 = 0.98,且 = 10−9。我们根据以下公式在训练过程中调整了学习率:

这对应于在前warmup_steps个训练步骤中线性增加学习率,之后则根据步骤数的逆平方根成比例地减小学习率。我们使用了warmup_steps = 4000。

5.4 正则化


我们在训练过程中采用了三种正则化方法:
残差丢弃法:在每个子层的输出上应用丢弃法[27],然后再将其添加到子层输入并进行归一化。此外,我们还在编码器和解码器堆栈的嵌入和位置编码的总和上应用了丢弃法。对于基础模型,我们使用的丢弃率为Pdrop = 0.1。

在训练过程中,我们采用了值为 ls = 0.1 的标签平滑[30]。这会增加困惑度,因为模型会学习变得更加不确定,但是可以提高准确率和BLEU得分。

6 结果 Results


6.1 机器翻译


在WMT 2014英德翻译任务上,大型Transformer模型(表2中的Transformer(大型))在BLEU得分上超过了之前报道的最佳模型(包括模型集合)超过2.0分,达到了新的最佳BLEU得分28.4。该模型的配置列在表3的底部。在8个P100 GPU上训练需要3.5天。即使我们的基础模型也超过了之前发布的所有模型和模型集合,且训练成本仅为任何竞争模型的一小部分。

在WMT 2014英法翻译任务上,我们的大型模型达到了41.0的BLEU得分,超过了之前发布的所有单一模型,且训练成本不到之前最佳模型训练成本的四分之一。用于英法翻译的Transformer(大型)模型使用的丢弃率Pdrop = 0.1,而不是0.3。

对于基础模型,我们使用一个由最后5个检查点平均得到的单一模型,这些检查点每10分钟写入一次。对于大型模型,我们平均了最后20个检查点。我们使用束搜索,束大小为4,长度惩罚α = 0.6[31]。这些超参数是在开发集上进行实验后选择的。我们在推理过程中设置最大输出长度为输入长度+50,但在可能的情况下会提前终止[31]。

表2总结了我们的结果,并将我们的翻译质量和训练成本与其他文献中的模型架构进行了比较。我们通过将训练时间、使用的GPU数量和每个GPU的持续单精度浮点运算能力估计值相乘,来估算训练模型所使用的浮点运算数量。

6.2 模型变体


为了评估Transformer中不同组件的重要性,我们以不同方式修改了基础模型,并在开发集newstest2013上测量了英德翻译性能的变化。我们使用了上一节描述的束搜索,但没有使用检查点平均。我们在表3中列出了这些结果。

在表3的行(A)中,我们改变了注意力头的数量和注意力键与值的维度,同时保持计算量不变,如3.2.2节所述。虽然单头注意力比最佳设置差0.9个BLEU点,但注意力头过多也会导致质量下降。

在表3的行(B)中,我们观察到减小注意力键的大小dk会损害模型质量。这表明确定兼容性并不容易,而且可能比点积更复杂的兼容性函数可能更有益。我们进一步在行(C)和(D)中观察到,正如预期的那样,更大的模型效果更好,并且丢弃法对于避免过拟合非常有帮助。在行(E)中,我们将正弦位置编码替换为学习的位置嵌入[8],并观察到与基础模型几乎相同的结果。

7 结论


在这项工作中,我们提出了Transformer,这是第一个完全基于注意力机制的序列转换模型,它用多头自注意力机制取代了编码器-解码器架构中最常用的循环层。

对于翻译任务,Transformer的训练速度显著快于基于循环或卷积层的架构。在WMT 2014英德和WMT 2014英法翻译任务上,我们都达到了新的最佳水平。在前一个任务中,我们的最佳模型甚至超过了之前报道的所有模型集合。

我们对基于注意力的模型的未来充满期待,并计划将它们应用于其他任务。我们计划将Transformer扩展到涉及非文本输入和输出模态的问题,并研究局部、受限的注意力机制,以有效处理大型输入和输出,如图像、音频和视频。使生成过程减少顺序性也是我们的另一个研究目标。我们用于训练和评估模型的代码可以在https://github.com/tensorflow/tensor2tensor找到。

Ankie的评论:

最近阅读了大量关于transformer和GPT相关的文章视频等,对transformer的理解也逐步加深。

transformer最开始只是为了解决机器翻译的问题。相比较之前RNN等方案,transformer的通过attention机制,明显提高了机器翻译的准确率。

出乎意料的是,OpenAI基于transformer在GPT1/2/3/4上的逐步改进优化,加上大力出奇迹,竟然基本解决了机器和人的沟通问题,远远超过原来的机器翻译的小目标。后来的Sora文生视频更是让人咋舌。

Attention Is All You Need这篇论文对于近代人工智能产业相当于爱因斯坦的狭义相对论。

Transformer模型相当于 E=MC^2

标签:Transformer,MC,训练,模型,Attention,WMT,2014,我们
From: https://blog.csdn.net/ank1983/article/details/136953435

相关文章

  • 谈一谈BEV和Transformer在自动驾驶中的应用
    谈一谈BEV和Transformer在自动驾驶中的应用BEV和Transformer都这么火,这次就聊一聊。结尾有资料连接一BEV有什么用首先,鸟瞰图并不能带来新的功能,对规控也没有什么额外的好处。从鸟瞰图这个名词就可以看出来,本来摄像头等感知到的物体都是3D空间里的的,投影到2D空间,只是信息的......
  • Tomcat服务器
    Tomcat服务器是一个开源的轻量级Web应用服务器,在中小型系统和并发量小的场合下被普遍使用,是开发和调试Servlet、JSP程序的首选。二、原理  Tomcat结构图:         Tomcat主要组件:服务器Server,服务Service,连接器Connector、容器Container。连接器Connector......
  • C语言内存函数(1)【memcpy函数的使用与模拟实现】【memmove函数的使用和模拟实现】
    关于内存函数有四个函数需要我们学习。分别是memcpy,memmove,memset和memcmp。都在头文件string.h里面。一.memcpy函数的使用一提到这个函数,我们可能会联想到strcpy函数,但strcpy函数是针对字符串的拷贝。但是我们在写代码的时候不可能只拷贝字符串。 intarr1[]={1,2,3,4,5......
  • 马斯克开源的 grok-1 底层 Transformer 模型论文 《Attention is All You Need》
    拓展阅读马斯克开源的grok-1底层Transformer模型论文《AttentionisAllYouNeed》马斯克开源的grok-1大模型底层Transformer模型到底是个啥?马斯克开源的grok-1大模型硬核源码第1弹马斯克开源的grok-1大模型硬核源码第2弹马斯克开源的grok-1大模型硬核源......
  • 机器学习算法那些事 | 使用Transformer模型进行时间序列预测实战
    本文来源公众号“机器学习算法那些事”,仅用于学术分享,侵权删,干货满满。原文链接:使用Transformer模型进行时间序列预测实战时间序列预测是一个经久不衰的主题,受自然语言处理领域的成功启发,transformer模型也在时间序列预测有了很大的发展。本文可以作为学习使用Transformer模......
  • 医院预约挂号系统设计与实现|jsp+ Mysql+Java+ Tomcat(可运行源码+数据库+设计文档)
    本项目包含可运行源码+数据库+LW,文末可获取本项目的所有资料。推荐阅读100套最新项目最新ssm+java项目文档+视频演示+可运行源码分享最新jsp+java项目文档+视频演示+可运行源码分享最新SpringBoot项目文档+视频演示+可运行源码分享2024年56套包含java,ssm,springboot的平台......
  • 分类预测 | Matlab实现MTF-CNN-Mutilhead-Attention马尔可夫转移场卷积网络多头注意力
    分类预测|Matlab实现MTF-CNN-Mutilhead-Attention马尔可夫转移场卷积网络多头注意力机制多特征分类预测/故障识别目录分类预测|Matlab实现MTF-CNN-Mutilhead-Attention马尔可夫转移场卷积网络多头注意力机制多特征分类预测/故障识别分类效果基本介绍模型描述程序设......
  • 【论文精读】VIT:vision transformer论文
    相关文章【论文精读】Transformer:AttentionIsAllYouNeed文章目录相关文章一、文章概览(一)研究背景(二)核心思路(三)相关工作(三)文章结论二、模型细节(一)组成模块(二)模型的大体流程(三)具体的模型的前向过程(四)transformerencoder的公式表达(五)消融实验1、关于图像分类编码方......
  • BurstAttention:可对非常长的序列进行高效的分布式注意力计算
    提高llm中注意力机制效率的努力主要集中在两种方法上:优化单设备计算和存储能力,如FlashAttention,以及利用多设备的分布式系统,如RingAttention。FlashAttention通过使用静态随机存储器(SRAM)来存储中间状态,而不是依赖于高带宽存储器(HBM)来提高注意力计算速度。而RingAttention通......
  • 政安晨:【深度学习处理实践】(九)—— Transformer架构
    咱们接着这个系列的上一篇文章继续:政安晨:【深度学习处理实践】(八)——表示单词组的两种方法:集合和序列https://blog.csdn.net/snowdenkeke/article/details/136762323Transformer是一种架构,用于在自然语言处理(NLP)和其他任务中进行序列到序列(seq2seq)学习。它于2017年由Vaswani......