首页 > 其他分享 >李宏毅《机器学习》总结 - Transformer

李宏毅《机器学习》总结 - Transformer

时间:2024-01-31 14:34:31浏览次数:27  
标签:总结 Transformer 李宏毅 self attention encoder 向量 normalization

前言

当时老师要求我做 transformer 和 self-attention 的 ppt,结果当时在训练 ACM 没大有时间,就弄了个质量不高的,不出意外的被喷了。。。现在回头看看当时做的整体没有大问题,但是由于知识没有连贯起来导致有些地方没有提到,也没有形成一个比较完整的架构。

Transformer 能做的任务是 seq2seq(即输出的长度不一定是输入的长度,而 self-attention 中输出长度等于输入长度),具体包含 encoder 和 decoder 两个部分
image

encoder

总的来说,包含 \(N\) 层,每层由一个 self-attention 和 一个 FC 组成:
image
在 encoder 中,self-attention 不是简单的得到 \(q,k,v\),相乘并 softmax 得到 \(\alpha'\),再和 \(v\) 做 weighted-sum,而是结合了 residual 和 normalization 的过程(简记为 add&norm)
具体地:
image
即:每一个向量先做 self-attention,再和原向量相加,这就是 residual 的过程,做 layer normalization(与 batch normalization 不同,BN 是对不同向量的同一个 feature 做 normalization,即“横着”,LN 是对一个向量的所有 feature 归一化,“竖着”),得到输出,再扔到 FC 中,做完 normalization 得到最终输出。这就是 "add&norm" 的含义
image

标签:总结,Transformer,李宏毅,self,attention,encoder,向量,normalization
From: https://www.cnblogs.com/SkyRainWind/p/17995571

相关文章

  • 后端写法总结
    一、类型转换之间的工具类packagecom.hengan.citicPlatGunNew.utils;importorg.apache.commons.compress.utils.Lists;importorg.springframework.beans.BeanUtils;importorg.springframework.util.CollectionUtils;importjava.util.Collection;importjava.util.Li......
  • vue 前端写法总结
    一、图片 1、<divclass="loginDiv":style="'background-image:url('+Background+');'"> 2、 <img:src="Logo"class="img-logo"><script><!--引入样式-->import'@/assets/styl......
  • 今日总结
    <properties><spark.version>2.1.0</spark.version><scala.version>2.11</scala.version></properties><dependencies><dependency><groupId>org.apache.spark</groupId><artifa......
  • 大模型模型结构总结
    对比各个大模型的网络结构ps:使用自己的config,但是模型结构跟官方配置原理一致.chatglm3ChatGLMForConditionalGeneration((transformer):ChatGLMModel((embedding):Embedding((word_embeddings):Embedding(65024,4096))(rotary_pos_emb):Rotar......
  • ABC388-VP赛总结-A/B(日结)
    首先A题(一个difficultly为21的题卡了我20分钟)ProblemStatementYouaregivenanon-emptystring\(S\)consistingofuppercaseandlowercaseEnglishletters.Determinewhetherthefollowingconditionissatisfied:Thefirstcharacterof\(S\)isuppercase,and......
  • 2023年度总结:我们都在用力的活着,拼尽了全力,却换回了伤痕累累!!!
    阅前必读:2023你还记得让你听过最扎心的话吗?你印象里记得你做的哪些不如意痛心的事吗?当你的付出得不到回报的时候。你有过绝望吗?闭上眼睛,想起过往时候,你流泪了吗?其实我并不害怕黑夜,我只是怕了孤单。走在那条回忆的路上,想我了血肉模糊的风景。承受过了背叛。其实并不是放不下。......
  • 如何做好一个信息系统项目经理,一个项目经理的个人体会和经验总结(二)
    前言之前文章讲了在项目开始阶段,作为一个信息系统项目经理应该做好哪些内容(参见如何做好一个信息系统项目经理,一个项目经理的个人体会和经验总结(一)),这一篇我们继续聊聊在项目开发阶段,项目经理又需要做好哪些事情呢?......
  • 设计模式一句话总结
    1.设计原则(SOLID原则)原则名字原则描述单一职责原则(S)功能只有一个开闭原则(O)开放扩展,关闭修改里氏替换原则(L)子类需要实现父类功能以保持兼容性接口隔离原则(I)不用的函数或者功能不要出现依赖倒置原则(D)细节依赖于抽象,约定优先迪米特法则只和朋友说话......
  • 每日总结2024年1月30日
    今天完成了歌声转换的第一阶段验收。我们小组选择的服务外包杯课题是A13的歌声转化,我们计划实现两个方面的功能。能够选择人声,然后根据导入的歌曲,替换原声,生成新的歌曲,这是我们计划的基础目标。但是考虑到条件的局限性,我们很难让用户自行导入音色素材直接转化为需要的音色,目前计......
  • python获取表格数据总结
    获取表格内容:图片中首先import了两个模块,一个os一个openyxl,然后指定表格路径,打开表格。os:这里os在Python中,os.chdir()方法用于改变当前的工作目录。工作目录是指当前正在执行的脚本所在的目录。通过使用os.chdir()方法,我们可以在脚本执行过程中切换到不同的目录。openy......