李宏毅《机器学习》总结 - Transformer

时间：2024-01-31 14:34:31浏览次数：27

标签：总结 Transformer 李宏毅 self attention encoder 向量 normalization

前言

当时老师要求我做 transformer 和 self-attention 的 ppt，结果当时在训练 ACM 没大有时间，就弄了个质量不高的，不出意外的被喷了。。。现在回头看看当时做的整体没有大问题，但是由于知识没有连贯起来导致有些地方没有提到，也没有形成一个比较完整的架构。

Transformer 能做的任务是 seq2seq（即输出的长度不一定是输入的长度，而 self-attention 中输出长度等于输入长度），具体包含 encoder 和 decoder 两个部分

encoder

总的来说，包含 \(N\) 层，每层由一个 self-attention 和一个 FC 组成：

在 encoder 中，self-attention 不是简单的得到 \(q,k,v\)，相乘并 softmax 得到 \(\alpha'\)，再和 \(v\) 做 weighted-sum，而是结合了 residual 和 normalization 的过程（简记为 add&norm）
具体地：

即：每一个向量先做 self-attention，再和原向量相加，这就是 residual 的过程，做 layer normalization（与 batch normalization 不同，BN 是对不同向量的同一个 feature 做 normalization，即“横着”，LN 是对一个向量的所有 feature 归一化，“竖着”），得到输出，再扔到 FC 中，做完 normalization 得到最终输出。这就是 "add&norm" 的含义

标签：总结,Transformer,李宏毅,self,attention,encoder,向量,normalization
From： https://www.cnblogs.com/SkyRainWind/p/17995571

后端写法总结
一、类型转换之间的工具类packagecom.hengan.citicPlatGunNew.utils;importorg.apache.commons.compress.utils.Lists;importorg.springframework.beans.BeanUtils;importorg.springframework.util.CollectionUtils;importjava.util.Collection;importjava.util.Li......
vue 前端写法总结
一、图片 1、<divclass="loginDiv":style="'background-image:url('+Background+');'"> 2、 <img:src="Logo"class="img-logo"><script>import'@/assets/styl......
今日总结
<properties><spark.version>2.1.0</spark.version><scala.version>2.11</scala.version></properties><dependencies><dependency><groupId>org.apache.spark</groupId><artifa......
大模型模型结构总结
对比各个大模型的网络结构ps:使用自己的config,但是模型结构跟官方配置原理一致.chatglm3ChatGLMForConditionalGeneration((transformer):ChatGLMModel((embedding):Embedding((word_embeddings):Embedding(65024,4096))(rotary_pos_emb):Rotar......
ABC388-VP赛总结-A/B（日结）
首先A题（一个difficultly为21的题卡了我20分钟）ProblemStatementYouaregivenanon-emptystring\(S\)consistingofuppercaseandlowercaseEnglishletters.Determinewhetherthefollowingconditionissatisfied:Thefirstcharacterof\(S\)isuppercase,and......
2023年度总结：我们都在用力的活着，拼尽了全力，却换回了伤痕累累！！！
阅前必读：2023你还记得让你听过最扎心的话吗？你印象里记得你做的哪些不如意痛心的事吗？当你的付出得不到回报的时候。你有过绝望吗？闭上眼睛，想起过往时候，你流泪了吗？其实我并不害怕黑夜，我只是怕了孤单。走在那条回忆的路上，想我了血肉模糊的风景。承受过了背叛。其实并不是放不下。......
如何做好一个信息系统项目经理，一个项目经理的个人体会和经验总结（二）
前言之前文章讲了在项目开始阶段，作为一个信息系统项目经理应该做好哪些内容（参见如何做好一个信息系统项目经理，一个项目经理的个人体会和经验总结（一）），这一篇我们继续聊聊在项目开发阶段，项目经理又需要做好哪些事情呢？......
设计模式一句话总结
1.设计原则（SOLID原则）原则名字原则描述单一职责原则（S）功能只有一个开闭原则（O）开放扩展，关闭修改里氏替换原则（L）子类需要实现父类功能以保持兼容性接口隔离原则（I）不用的函数或者功能不要出现依赖倒置原则（D）细节依赖于抽象，约定优先迪米特法则只和朋友说话......
每日总结2024年1月30日
今天完成了歌声转换的第一阶段验收。我们小组选择的服务外包杯课题是A13的歌声转化，我们计划实现两个方面的功能。能够选择人声，然后根据导入的歌曲，替换原声，生成新的歌曲，这是我们计划的基础目标。但是考虑到条件的局限性，我们很难让用户自行导入音色素材直接转化为需要的音色，目前计......
python获取表格数据总结
获取表格内容：图片中首先import了两个模块，一个os一个openyxl，然后指定表格路径，打开表格。os：这里os在Python中，os.chdir()方法用于改变当前的工作目录。工作目录是指当前正在执行的脚本所在的目录。通过使用os.chdir()方法，我们可以在脚本执行过程中切换到不同的目录。openy......

李宏毅《机器学习》总结 - Transformer

前言

encoder

相关文章

赞助商

阅读排行