首页 > 其他分享 >Padding Mask;Sequence Mask;为什么如果没有适当的掩码机制,解码器在生成某个位置的输出时,可能会“看到”并错误地利用该位置之后的信息

Padding Mask;Sequence Mask;为什么如果没有适当的掩码机制,解码器在生成某个位置的输出时,可能会“看到”并错误地利用该位置之后的信息

时间:2024-08-14 15:27:36浏览次数:11  
标签:Sequence 位置 Mask Padding 解码器 掩码

目录

掩码Mask

 Padding Mask

 Sequence Mask

为什么需要Sequence Mask?

Sequence Mask是如何工作的?

具体实现

为什么如果没有适当的掩码机制,解码器在生成某个位置的输出时,可能会“看到”并错误地利用该位置之后的信息

自回归性质

一、定义

二、性质

三、应用限制


掩码Mask

Mask 表示掩码,它对某些值进行掩盖,使其在参数更新时不产生效果。Transformer 模型里面涉及两种 mask分别是 Padding Mask 和 Sequence Mask

  • Padding Mask 在所有的 scaled dot-product attention 里面都需要用到

  • Sequence Mask 只有在解码器 Decoder 的 Self-Attention 里面用到

 Padding Mask

什么是 Padding mask 呢?因为每个批次输入序列的长度是不一样的,所以我们要对输入序列进行对齐

具体来说:就是在较短的序列后面填充 0(但是如果输入的序列太长,则是截断,把多余的直接舍弃)。因为这些填充的位置,其实是没有什么意义的,所以我们的 Attention 机制不应该把注意力放在这些位置上,所以我们需要进行一些处理。

具体的做法:把这些位置的值加上一个非常大的负数(负无穷),这样的话,经过Softmax

标签:Sequence,位置,Mask,Padding,解码器,掩码
From: https://blog.csdn.net/qq_38998213/article/details/141173554

相关文章

  • 使用Mask R-CNN实现图像分割
    使用MaskR-CNN实现分割步骤1.导入依赖项import osimport torchimport numpy as npimport matplotlib.pyplot as pltfrom PIL import Imagefrom torch.utils.data import Dataset, DataLoaderfrom torchvision.transforms import Compose, ToTe......
  • Transformer系列:图文详解Decoder解码器原理
    Encoder-Decoder框架简介理解Transformer的解码器首先要了解Encoder-Decoder框架。在原论文中Transformer用于解决机器翻译任务,机器翻译这种Seq2Seq问题通常以Encoder-Decoder框架来解决,Transformer的网络结构也是基于encoder-decoder框架设计的。这种框架的模型分为两部......
  • MLM掩码语言模型在实际应用中有哪些常见的挑战和解决方案
    关注我,持续分享逻辑思维&管理思维&面试题;可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导;推荐专栏《10天学会使用asp.net编程AI大模型》,目前已完成所有内容。一顿烧烤不到的费用,让人能紧跟时代的浪潮。从普通网站,到公众号、小程序,再到AI大模型网站。干货满满。学成后可......
  • 机器学习笔记:编码器与解码器
    目录介绍组成结构代码实现编码器解码器合并编码器-解码器思考介绍在机器翻译中,输入的序列与输出的序列经常是长度不相等的序列,此时,像自然语言处理这种直接使用循环神经网络或是门控循环单元的方法就行不通了。因此,我们引入一个新的结构,称之为“编码器-解码器”(Enco......
  • UnicodeEncodeError:“ascii”编解码器无法对位置 20 中的字符 u'\xa0' 进行编码:序号
    我在处理从不同网页(在不同站点上)获取的文本中的unicode字符时遇到问题。我正在使用BeautifulSoup。问题是错误并不总是可重现的;它有时适用于某些页面,有时,它会因抛出UnicodeEncodeError而呕吐。我已经尝试了几乎所有我能想到的方法,但我还没有找到任何可以一致工作......
  • 编码器和解码器
    编码器在编码器的接口中,我们只指定长度可变的序列作为编码器的输入X。任何继承自Encoder基类的模型将完成代码实现。fromtorchimportnn#@saveclassEncoder(nn.Module):"""编码器-解码器架构的基本编码器接口"""def__init__(self,**kwargs):super(En......
  • “utf-8”编解码器无法解码位置 85 中的字节 0xf3:无效的连续字节
    我有一个连接到pgadminPOSTGRESQL的fastapi服务。这是我在数据库中的数据:INSERTINTOpublic.agency(名称、地址、描述)价值观(“中央机构”、“中心城市主街123号”、“所有运营和服务的中心枢纽。”),(“北部机构”、“北部城镇北大街456号”、“处理所有北部地区的活......
  • Unity强化工程 之 Mask & SortingGroup
    本文仅作笔记学习和分享,不用做任何商业用途本文包括但不限于unity官方手册,unity唐老狮等教程知识,如有不足还请斧正1.Mask遮罩故名思意就是起到遮挡作用的罩子:精灵遮罩-Unity手册如果我想让sprite与遮罩发生交互,那么我需要勾选spritrrenderer的交互选项之后就可......
  • 随意扩大主机子网掩码范围可能造成的后果
    文章目录扩大子网掩码的影响和考虑1.网络安全和隔离性降低2.广播域增大3.IP地址管理复杂化4.路由复杂性5.策略和规则的适应性6.网络性能总结扩大子网掩码的影响和考虑1.网络安全和隔离性降低例子:考虑一个大型企业,它的财务部门和人力资源部门原本各自位于......
  • Python,Maskrcnn训练,cannot import name ‘saving‘ from ‘keras.engine‘ ,等问题集合
    Python版本=3.9,tensorflow=2.11.0,keras==2.11.0问题一、module'keras.engine'hasnoattribute'Layer'Traceback(mostrecentcalllast):File"C:\Users\Administrator\Desktop\20240801\代码\test.py",line16,in<module>......