首页 > 其他分享 >Transformer原论文

Transformer原论文

时间:2023-06-13 18:44:05浏览次数:50  
标签:Transformer 论文 编码器 神经网络 序列 机制 注意力 向量

相关工作文献阅读与总结

Attention Is All You Need

知乎笔记

摘要

dominant sequence transduction 显性序列转导模型

传统的:基于包括编码器和解码器的复杂递归 / CNN卷积神经网络

文章提出:Transformer 模型,完全基于注意力机制,放弃了循环和卷积

介绍

最先进的序列模型和转导问题(如语言建模,机器翻译)等,都在用 RNN(Recurrent Netual Network) (循环神经网络),其中有lstm(Long Short-trem memory)(长短时记忆循环神经网络),gru(Recurrent netual network)(门控循环神经网络)存在一个时序化的,顺序计算的 约束,影响了计算效率

在各种任务的序列建模和转到模型中,允许建立不考虑在输入或者输出序列中的位置 的注意力机制,但是传统的用法都是结合循环网络一起使用的

背景

卷积神经网络为基础建构 ByteNetConvS2S 会导致:“来自任意输入输出位置的关联信号所需要的操作数量”随着两个信号位置距离而增加,前者是对数的,后者是线性。这些可能会使得远距离学习的依赖关系更困难。同时由于平均注意力加权的位置,不得不以降低分辨率为代价。在Transfermer中通过减少一定操作数,多方注意力机制来抵消掉“降低分辨率”的代价。

Tranformer 不使用序列对齐的方式,而是基于循环的注意力机制方式。它是是第一个完全依靠自我关注计算输入和输出的表示

模型架构

编码器把输入的序列先转化成连续表示的序列 ( 先经过一个 独热到词嵌入的映射 再加上 位置嵌入

解码器将刚刚生成的连续序列解码生成符号序列,一次生成一个

符号是自回归的,自己生成的符号作为自己下一次生成的附加输入

image

编码器:六个一致的层级结构堆叠

  • 多头注意层
  • 全连接的前馈神经网络
  • 残差通道

在接受上一个层级的残查输出之后做一个 批归一化 (并不常见,因为往往NLP内输入序列长度不一致,具体有填补方法)

解码器

  • 多头注意力机制通常是掩盖了后文的,即当前的位置信息只依赖于所有之前的序列信息,Bert引入了 MLM(Masked Language Model)进行双向建模
  • 添加了一个完整的多头注意力层对编码器每一格大层的输出向量进行提取

多头注意力层

  • 注意力机制

注意力机制最早在seq2seq里面引入,无论RNN模型改进多好,传入seq2seq解码器里面的初始输入向量总是有信息损失。但是我们可以使用输入向量作为 查询向量(query vector) 来对于编码器的每一个隐层求向量距离,最终使用 softmax 来转化成概率分布,就可以根据向量和距离得到一个 对每个隐层输出 的权重,做了加权平均之后可以得到一个新的向量

image

  • 多头注意力机制

多头注意力机制如图,他将咨询,键值,价值向量分别作了线性映射来改编维度。在分别进行了注意力操作之后,再拼接每个注意力头使用得到加权变化向量,最后进行一次线性变换来恢复维度

image

标签:Transformer,论文,编码器,神经网络,序列,机制,注意力,向量
From: https://www.cnblogs.com/ZzTzZ/p/17478465.html

相关文章

  • 最好的Transformer讲解:The Illustrated Transformer + The Annotated Transformer
    TheIllustratedTransformerhttps://jalammar.github.io/illustrated-transformer/TheAnnotatedTransformerhttp://nlp.seas.harvard.edu/annotated-transformer/......
  • 田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘
    前言 AI理论再进一步,破解ChatGPT指日可待?本文转载自新智元仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV各大方向专栏与各个部署框架最全教程整理【CV技术指南】CV全栈指导班、基础入门......
  • 想轻松撰写毕业论文?这篇指南帮你解决压力!
    亲爱的同学们,时光荏苒,转眼间你们即将踏入毕业生的行列。毕业论文作为本科和研究生阶段的重要任务,不仅是对所学知识的综合运用,更是一次对自己学术能力和专业素养的全面考验。然而,论文写作常常伴随着压力和焦虑,今天我将分享一些宝贵的经验,帮助你们降低毕业论文写作的压力,迎接挑战。01......
  • Transformer架构:革命性的深度学习模型概述
    Transformer架构是一种革命性的深度学习模型,由Vaswani等人在2017年的论文《AttentionisAllYouNeed》中提出。它在自然语言处理(NLP)和其他序列到序列(seq2seq)任务中取得了显著的突破,成为目前最受关注和广泛应用的模型之一。背景与动机在传统的序列模型中,如循环神经网络(RNN)和卷......
  • 论文参考文献格式不规范如何快速调整
    帮改文科社科类论文格式,忘记了参考文献格式如何修改,简要记录并学习一下。问题如下:解决两步:①选中所有参考文献②选择段落,如下勾选解决视频:......
  • [重读经典论文] ConvNeXt——卷积网络又行了
    参考博客:ConvNeXt网络详解参考视频:13.1ConvNeXt网络讲解ConvNeXt其实就是面向SwinTransformer的架构进行炼丹,最后获得一个比SwinTransformer还要牛逼的网络。 ......
  • 论文解读 | IROS 2022:基于三维激光雷达的语义位置识别和姿态估计
    原创|文BFT机器人01研究背景这篇论文的背景是在自动驾驶和机器人导航等领域,需要实现高精度、高效率的定位和地点识别。然而,传统的基于GPS或视觉的方法存在一些局限性,尤其在城市峡谷等环境中无法提供准确的位置信息。为了解决这一问题,使用3DLiDAR进行定位和地点识别已经成为一......
  • Segment-Anything的一些相关论文总结
    1、SegmentAnythingModel(SAM)EnhancedPseudoLabelsforWeaklySupervisedSemanticSegmentation https://avoid.overfit.cn/post/92f50aa2951d4dd89cfc4fe71e0531ef......
  • springboot+vue留守儿童爱心网站,附源码+数据库+论文+PPT,远程包安装运行
    1、项目介绍留守儿童爱心网站采用了B/S结构,JAVA作为开发语言,数据库采用了B/S结构,Mysql数据库进行开发。该系统包括前台操作,后台由管理员和用户两个部分,一方面,为用户提供首页、宣传新闻、志愿活动、爱心捐赠、个人中心、后台管理等功能;另一方面,为管理员提供首页、个人中心、用户管......
  • ChatGPT 五个写论文的神技巧,让你的老师对你刮目相看!
     导读:ChatGPT这款AI工具在推出两个月内就累积了超过1亿用户。我们向您展示如何使用ChatGPT进行写作辅助,以及其他一些有用的写作技巧。本文字数:2000,阅读时长大约:12分钟ChatGPT这款AI工具在推出两个月内就累积了超过1亿用户。最大的亮点之一是它能够在几秒钟内撰写各种内容,包......