首页 > 其他分享 >【753】Transformer模型

【753】Transformer模型

时间:2022-10-17 15:44:07浏览次数:83  
标签:753 Transformer 精读 emb 模型 attention 并行

参考:李宏毅-Transformer【动画细致,有助于理解Self-Attention】

参考:The Illustrated Transformer【详细到一些参数,动画也很好】

参考:Transformer论文逐段精读【论文精读】


李宏毅老师深入浅出讲解transformer模型:https://www.bilibili.com/video/BV1Wq4y1v7DE?share_source=copy_web

论文:Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 2017-December(Nips), 5999–6009.

 

背景与逻辑

用attention机制替代RNN(处理有序列的数据,seq2seq)

RNN的问题在于不能并行,但CNN只能观察到局部;而用attention机制相当于叠加多层的CNN,从而扩大感受野

但是必须要叠加多层才能看到更大的感受野。因此用self-attention layer来替代,可以看到所有的seq,而同时也可以并行。

 

Self-attention机制

  • 给每个input一个embedding X:单词emb和位置emb,得到的emb结果叫a

  • 对每个a,需要三个内容q/k/v,表示的是各个input 之间的关联性(attention系数);直观理解是不同的词之间的关系

    产生b1的时候 已经看到了全局所有的向量,天涯若比邻。如果只想看到局部的,也可以让中间某些系数为0即可

  • 可以用矩阵运算表示,因此可以并行

Transformer模型

seq2seq:encoder + decoder

 

 

标签:753,Transformer,精读,emb,模型,attention,并行
From: https://www.cnblogs.com/alex-bn-lee/p/16799415.html

相关文章

  • 【自然语言处理(NLP)】基于Transformer的英文自动文摘
    【自然语言处理(NLP)】基于Transformer的英文自动文摘作者简介:在校大学生一枚,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产......
  • 原创翻译 | 机器学习模型服务工具对比:KServe,Seldon Core和BentoML
    介绍机器学习现在被成千上万的企业所使用。它的无处不在有助于推动越来越难以预测的创新,并为企业的产品和服务构建智能体验。虽然机器学习随处可见,但它在实际实施时也带来了......
  • 软件开发模型(笔记版)
    软件开发模型①瀑布模型②V模型③W模型(双V)一、瀑布模型瀑布模型简介这是一个软件生命周期模型,开发过程是通过设计一系列阶段顺序展开的,从系统需求分析开始直到产品发布......
  • 软件开发模型
    下面以软件开发模型发展历史为顺序,介绍几个典型的开发模型。1.瀑布模型瀑布模型是W.W.罗伊斯(W.W.Royce)于1970年提出的软件开发模型,由模型名称可知该模型遵循从上至下一次性......
  • 深度学习与统计力学(VI) :通过概率模型进行“深度想象”
    谷歌和斯坦福最新合作综述报告,发表在物理学的顶级期刊“凝聚态物理年鉴”(AnnualReviewofCondensedMatterPhysics)。作者YasamanBahri,JonathanKadmon,JeffreyPenni......
  • 四、MVVM模型 数据代理
     MVVM模型●M:模型Model,data中的数据●V:视图View,模板代码●VM:视图模型ViewModel,Vue实例观察发现●data中所有的属性,最后都出现在了vm身上●vm身上所有的属性及......
  • 【自然语言处理(NLP)】基于Transformer的英文自动文摘
    【自然语言处理(NLP)】基于Transformer的英文自动文摘作者简介:在校大学生一枚,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产......
  • Vicinity Vision Transformer概述
    0.前言相关资料:arxivgithub论文解读论文基本信息:发表时间:arxiv2022(2022.6.21)1.针对的问题视觉transformer计算复杂度和内存占用都是二次......
  • Entity Framework教程-Entity Framework-模型关系(Model Relationships)
    更新记录转载请注明出处:2022年10月17日发布。2022年10月10日从笔记迁移到博客。配置实体关系的方式使用数据特性使用FluentAPI关系配置使用关系属性导航属性(na......
  • SketchUp2020免费中文完整版官网2021教程模型库下载
    SketchUp2022WIN1064位安装步骤: 1.先使用“百度网盘客户端”下载SU22_CN_x64安装包到电脑磁盘里,并鼠标右击进行解压缩,然后找到SketchUpProFull-2022.exe,鼠标右击选择......