首页 > 编程语言 >救命啊!字节大模型算法实习岗面试居然栽在Transformer上了!!

救命啊!字节大模型算法实习岗面试居然栽在Transformer上了!!

时间:2024-11-10 11:50:28浏览次数:3  
标签:Transformer 字节 梯度 模型 Attention 救命 学习 softmax dk

在这里插入图片描述

为什么在进行softmax之前需要对attention进行scaled(为什么除以dk的平方根)?

transformer论文中的attention是ScaledDot-Porduct Attention 来计算keys和queries之间的关系。如下图所示:
在这里插入图片描述
在公式一中,作者对0和K进行点积以获得注意力权重,然后这些权重用于加权平均V。但在实际实现中,这个点积会被缩放,即除以keys的维度的平方根,常常表示为d_k。这里d_k是key向量的维度。

细心的同学都会发现,Attention 计算公式中会除以根号d,那问题来了!!!

Attention为什么要除以根号d 呢?

注:这个题目属于 NLP 面试中一个高频题,基本上问到Attention 或者Transformers的时候都会问。(小编在找实习的时候,就被问了不止十次,现在抽空整理一下答案。)

标准答案

从论文中可以看出,随着dk的值变大,点积的大小会增大,从而推动softmax函数往仅有很小的梯度的方向靠拢(分布集中在绝对值大的区域),导致softmax函数容易导致梯度消失问题。

例如,假设Q和K的均值为0,方差为1。它们的矩阵乘积将有均值为0,方差为dk(dk是Q或者K的维度大小)。因此,dk的平方根被用于缩放(而非其他数值),因为,Q和K的矩阵乘积的均值本应该为0,方差本应该为1,这样会获得一个更平缓的softmax。

如果你在面试过程中也遇到该问题,可以回答

随着d k的值变大,点积的大小会增大,如没有及时对点积的大小进行缩放,那么万一点积的数量级很大,softmax的梯度就会趋向于0,也就会出现梯度消失问题

问题引申新问题

当你按上述答案回答后,基本能够回答上点,但是面试官为了考察你对该问题的深度会进行问以下几个问题:

1、为什么d_k变大会使得 softmax 梯度变小,从而导致梯度消失呢?
2、除了sqrt(d_k),是否可以用其他值代替?
3、self-attention一定要这样表达吗?
4、有其他方法不用除根号dk吗?

问题一:为什么 变大会使得 softmax梯度变小,从而导致梯度消失呢!

标准答案:输入softmax的值过大,会导致偏导数趋近于0,从而导致梯度消失

问题二:为什么 变大会使得 softmax梯度变小,从而导致梯度消失呢?

标准答案:为什么选择,时因为可以使得0和K点积趋向于期望为0,方差为1的标准正态分布,说白了就是归一化。

问题三:self-attention一定要这样表达吗?

不需要,能刻画相关性,相似性等建模方式都可以。最好速度快,模型好学,表达能力够。

问题四:有其他方法不用除根号dk吗?

有,同上,只要能做到每层参数的梯度保持在训练敏感的范围内,不要太大,不要太小。那么这个网络就比较好训练。方式有,比较好的初始化方法,类似于google的T5模型,就在初始化把这个事情干了。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

标签:Transformer,字节,梯度,模型,Attention,救命,学习,softmax,dk
From: https://blog.csdn.net/Z4400840/article/details/143658485

相关文章

  • 字节青训营 兔群繁殖之谜
    兔群繁殖之谜问题描述生物学家小R正在研究一种特殊的兔子品种的繁殖模式。这种兔子的繁殖遵循以下规律:每对成年兔子每个月会生育一对新的小兔子(一雌一雄)。新生的小兔子需要一个月成长,到第二个月才能开始繁殖。兔子永远不会死亡。小R从一对新生的小兔子开始观察。他想知......
  • detr+transformer+端到端目标检测+超越yolo的目标检测
    DETR:使用Transformer的端到端目标检测DETR(DetectionTransformer)的PyTorch训练代码和预训练模型。我们用Transformer替代了完整的手工设计的目标检测流水线,并且在使用ResNet-50的情况下达到了与FasterR-CNN相匹配的性能,在COCO数据集上获得了42%的平均精度(AP),并且只用了后......
  • detr+transformer+端到端目标检测+超越yolo的目标检测
    DETR:使用Transformer的端到端目标检测支持乌克兰DETR(DetectionTransformer)的PyTorch训练代码和预训练模型。我们用Transformer替代了完整的手工设计的目标检测流水线,并且在使用ResNet-50的情况下达到了与FasterR-CNN相匹配的性能,在COCO数据集上获得了42%的平均精度(AP),......
  • 深入解析 Transformers 框架(四):Qwen2.5/GPT 分词流程与 BPE 分词算法技术细节详解
    前面我们已经通过三篇文章,详细介绍了Qwen2.5大语言模型在Transformers框架中的技术细节,包括包和对象加载、模型初始化和分词器技术细节:深入解析Transformers框架(一):包和对象加载中的设计巧思与实用技巧深入解析Transformers框架(二):AutoModel初始化及Qwen2.5模型加载全......
  • 【论文阅读笔记】Transformer——《Attention Is All You Need》
    论文地址:https://arxiv.org/pdf/1706.03762代码地址:https://github.com/huggingface/transformers目录IntroductionBackgroundModelArchitectureEncoderLNandBNDecoderAttentionMulti-headAttentionFeed-ForwardPostionEncodingWhyself-attentionIntroductionRNN,L......
  • 【论文阅读笔记】Transformer——《Attention Is All You Need》
    论文地址:https://arxiv.org/pdf/1706.03762代码地址:https://github.com/huggingface/transformers目录IntroductionBackgroundModelArchitectureEncoderLNandBNDecoderAttentionMulti-headAttentionFeed-ForwardPostionEncodingWhyself-attentionIntroductionRNN,L......
  • 首个Mamba+Transformer多模态大模型
    扩展多模态大语言模型(MLLMs)的长上下文能力对于视频理解、高分辨率图像理解以及多模态智能体至关重要。这涉及一系列系统性的优化,包括模型架构、数据构建和训练策略,尤其要解决诸如随着图像增多性能下降以及高计算成本等挑战。该团队将模型架构调整为Mamba和Transformer......
  • 顶会新热门:小波变换×Transformer,效率翻倍的AI图像去噪神奇组合
    2024深度学习发论文&模型涨点之——小波变换+Transformer 小波变换与Transformer的结合主要探讨如何利用小波变换的多尺度特性来增强Transformer在处理信号和图像数据时的表现。具体来说,小波变换能够有效提取信号中的局部特征,并在时间和频率域上提供信息,这对于处理复杂的......
  • 【论文精读】BERT: Pre-training of Deep Bidirectional Transformers for Language U
    【论文精读】BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding作者:JacobDevlin,Ming-WeiChang,KentonLee,KristinaToutanova发表会议:NAACL2019论文地址:arXiv:1810.04805BERT是近年来NLP领域影响最大的模型。在CV领域,很早......
  • 字节大模型离职了,聊一下现在的面试……
    字节大模型离职了,聊一下现在的面试……之前总有小伙伴问我怎么进的字节❓学历经验是一方面吧,但你要了解现在市场上面试的方向才能针对性的去准备面试。现在面试问的最多的还是场景题,八股文较少,问来问去都是这些问题,一般的场景题就可以应付绝大部分的面试了。我反正也离......