首页 > 其他分享 >超详细的系列总结!大模型岗面试题(含答案)来了!(大语音模型基础篇二)

超详细的系列总结!大模型岗面试题(含答案)来了!(大语音模型基础篇二)

时间:2024-09-24 17:50:05浏览次数:13  
标签:Transformer 模型 面试题 Encoder 含答案 复杂度 共享 注意力

前言

大模型应该是目前当之无愧的最有影响力的AI技术,它正在革新各个行业,包括自然语言处理、机器翻译、内容创作和客户服务等,正成为未来商业环境的重要组成部分。

截至目前大模型已超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关岗位和面试也开始越来越卷了。
在这里插入图片描述

我今天给大家分享一些梳理的面试题,内容较长,喜欢记得收藏、关注、点赞。

Transformer

1.attention
2.layer_normalization
3.位置编码
4.tokenize分词
5.token及模型参数
6.激活函数
在这里插入图片描述

2.Transformer

2.1 transformer中multi-head attention中每个head为什么要进行降维?

在Transformer的Multi-Head Attention中,对每个head进行降维是为了增加模型的表达能力和效率。

每个head是独立的注意力机制,它们可以学习不同类型的特征和关系。通过使用多个注意力头,Transformer可以并行地学习多种不同的特征表示,从而增强了模型的表示能力。

然而,在使用多个注意力头的同时,注意力机制的计算复杂度也会增加。原始的Scaled Dot-Product Attention的计算复杂度为O(d2)O(d2)O(d2),其中d是输入向量的维度。如果使用h个注意力头,计算复杂度将增加到O(hd2)O(hd2)O(hd2)。这可能会导致Transformer在处理大规模输入时变得非常耗时。

为了缓解计算复杂度的问题,Transformer中在每个head上进行降维。在每个注意力头中,输入向量通过线性变换被映射到一个较低维度的空间。这个降维过程使用两个矩阵:一个是查询(Q)和键(K)的降维矩阵WqW_qWq和WkW_kWk,另一个是值(V)的降维矩阵WvW_vWv。

通过降低每个head的维度,Transformer可以在保持较高的表达能力的同时,大大减少计算复杂度。降维后的计算复杂度为(hd^2)(h\hat d ^ 2)(hd2),其中d\hat dd是降维后的维度。通常情况下,d\hat dd^会远小于原始维度d,这样就可以显著提高模型的计算效率。

2.2 transformer在哪里做了权重共享,为什么可以做权重共享?

Transformer在Encoder和Decoder中都进行了权重共享。

在Transformer中,Encoder和Decoder是由多层的Self-Attention Layer和前馈神经网络层交叉堆叠而成。权重共享是指在这些堆叠的层中,相同位置的层共用相同的参数

在Encoder中,所有的自注意力层和前馈神经网络层都共享相同的参数。这意味着每一层的自注意力机制和前馈神经网络都使用相同的权重矩阵来进行计算。这种共享保证了每一层都执行相同的计算过程,使得模型能够更好地捕捉输入序列的不同位置之间的关联性。

在Decoder中,除了和Encoder相同的权重共享方式外,还存在另一种特殊的权重共享:Decoder的自注意力层和Encoder的自注意力层之间也进行了共享。这种共享方式被称为"masked self-attention",因为在解码过程中,当前位置的注意力不能关注到未来的位置(后续位置),以避免信息泄漏。通过这种共享方式,Decoder可以利用Encoder的表示来理解输入序列并生成输出序列。权重共享的好处是大大减少了模型的参数数量,使得Transformer可以更有效地训练,并且更容易进行推理。此外,共享参数还有助于加快训练速度和提高模型的泛化能力,因为模型可以在不同位置共享并学习通用的特征表示。

2.3 transformer的点积模型做缩放的原因是什么?

使用缩放的原因是为了控制注意力权重的尺度,以避免在计算过程中出现梯度爆炸的问题。

Attention的计算是在内积之后进行softmax,主要涉及的运算是eq⋅ke^{q \cdot k}eq⋅k,可以大致认为内积之后、softmax之前的数值在−3d-3\sqrt{d}−3d到3d3\sqrt{d}3d这个范围内,由于d通常都至少是64,所以e3de^{3\sqrt{d}}e3d比较大而 e−3de^{-3\sqrt{d}}e−3d比较小,因此经过softmax之后,Attention的分布非常接近一个one hot分布了,这带来严重的梯度消失问题,导致训练效果差。(例如y=softmax(x)在|x|较大时进入了饱和区,x继续变化y值也几乎不变,即饱和区梯度消失)

相应地,解决方法就有两个:

像NTK参数化那样,在内积之后除以

d\sqrt{d}d

,使q⋅k的方差变为1,对应

e3,e−3e3,e{−3}e3,e−3

都不至于过大过小,这样softmax之后也不至于变成one hot而梯度消失了,这也是常规的Transformer如BERT里边的Self Attention的做法

另外就是不除以

d\sqrt{d}d

,但是初始化q,k的全连接层的时候,其初始化方差要多除以一个d,这同样能使得使q⋅k的初始方差变为1,T5采用了这样的做法。

标签:Transformer,模型,面试题,Encoder,含答案,复杂度,共享,注意力
From: https://blog.csdn.net/weixin_42924914/article/details/142496262

相关文章

  • 浅谈如何处理大语言模型训练数据之三开源数据集介绍
    随着最近这些年来基于统计机器学习的自然语言处理的算法的发展,以及信息检索研究的需求,特别是近年来深度学习和预训练语言模型的研究以及国内国外许多大模型的开源,研究人员们构建了多种大规模开源数据集,涵盖了网页、图片、论文、百科等多个领域。在构建大语言模型时,数据的质量和多......
  • 《AI大模型开发之路》读后感:一次深入的技术旅程
    最近,我阅读了《AI大模型开发之路》这本书,感触颇深。这本书犹如一座技术的灯塔,指引着我在AI大模型的海洋中航行。一开始,作者从AI大模型的基础讲起,涵盖了自然语言处理的简史和AI大模型的概述。这让我对整个领域有了宏观的认识,仿佛站在巨人的肩膀上,俯瞰技术的发展历程。接下来,书中......
  • 《AI大模型开发之路》:一不小心掉进了AI的“大坑”
    各位小伙伴们,你们有没有过这样的经历:本来只是想学点AI的皮毛,结果一不小心掉进了“大模型”的深坑?最近,我就亲身体验了一把,阅读了这本《AI大模型开发之路》,感觉整个人都被“模型化”了。初次相遇:被目录吓了一跳当我第一次翻开这本书的目录时,内心是崩溃的。第1章AI大模型基础?......
  • 让模型评估模型:构建双代理RAG评估系统的步骤解析
    在当前大语言模型(LLM)应用开发的背景下,一个关键问题是如何评估模型输出的准确性。我们需要确定哪些评估指标能够有效衡量提示(prompt)的效果,以及在多大程度上需要对提示进行优化。为解决这一问题,我们将介绍一个基于双代理的RAG(检索增强生成)评估系统。该系统使用生成代理和反......
  • 机器学习模型中特征贡献度分析:预测贡献与错误贡献
    在机器学习领域,特征重要性分析是一种广泛应用的模型解释工具。但是特征重要性并不等同于特征质量。本文将探讨特征重要性与特征有效性之间的关系,并引入两个关键概念:预测贡献度和错误贡献度。核心概念预测贡献度:衡量特征在模型预测中的权重,反映模型在训练集上识别的模式。这与传统的......
  • 利用未标记数据的半监督学习在模型训练中的效果评估
    数据科学家在实践中经常面临的一个关键挑战是缺乏足够的标记数据来训练可靠且准确的模型。标记数据对于监督学习任务(如分类或回归)至关重要。但是在许多领域,获取标记数据往往成本高昂、耗时或不切实际。相比之下,未标记数据通常较易获取,但无法直接用于模型训练。如何利用未标记数据来......
  • 抛开线性回归模型,基于树模型来尝试构建回归模型,可视化绘制树状层级结构
    一提到回归,可能很多人第一时间脑海里想到的就是线性回归模型,的确,线性回归器可以说是非常常用的模型了。线性回归模型广泛应用于各种领域,如经济学、金融学、社会科学、工程学等。它可以用于预测、因果分析、趋势分析等。线性回归模型是一种广泛应用于统计学和机器学习中的预测模......