面试知识点

面试知识点

时间：2024-09-23 14:37:20浏览次数：5

标签：知识点 Transformer 面试归一化序列 BatchNorm LayerNorm Normalization

训练过程为什么需要 Mask 机制？

两个原因。 1. 屏蔽未来信息，防止未来帧参与训练。 2. 处理不同长度的序列，在批处理时对较短的序列进行填充（padding），并确保这些填充不会影响到模型的输出。

mask机制如何实现？

1. 屏蔽未来信息的 Mask：在自注意力层中，通过构造一个上三角矩阵（对于解码器），其中上三角部分（包括对角线，取决于具体实现）被设置为非常大的负数，这样在通过 softmax 层时，这些位置的权重接近于0，从而在计算加权和时不考虑未来的词。

2. Padding Mask：将填充位置的值设置为一个大的负数，使得经过 softmax 层后，这些位置的权重接近于0。

作者：浦东新村轱天乐
链接：https://zhuanlan.zhihu.com/p/682585974
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

6 Transformer 中的Positional Encoding有什么作用？

保证attention机制考虑序列的顺序，否则无法区分不同的位置的相同的输入。

7 Transformer 如何处理长距离依赖问题？

Transformer 通过自注意力机制直接计算序列中任意两个位置之间的依赖关系，从而有效地解决了长距离依赖问题。

8 Layer Normalization的作用是什么？

Layer Normalization有助于稳定深层网络的训练，通过对输入的每一层进行标准化处理（使输出均值为0，方差为1），可以加速训练过程并提高模型的稳定性。它通常在自注意力和前馈网络的输出上应用。

9 能否用Batch Normalizatioin?

在 Transformer 架构中，层归一化（Layer Normalization，简称 LayerNorm）是首选的归一化方法，主要用于模型内部的每一层之后。理论上，层归一化可以被批归一化（Batch Normalization，简称 BatchNorm）替换，但是这两种归一化技术在应用上有着本质的不同，这些差异导致了在 Transformer 中通常优先选择层归一化而不是批归一化。

层归一化（Layer Normalization）

层归一化是对每个样本的所有特征执行归一化操作，独立于其他样本。这意味着，无论批次大小如何，LayerNorm 的行为都是一致的。
在处理序列数据和自注意力机制时，LayerNorm 更加有效，因为它能够适应不同长度的输入，这在自然语言处理任务中尤为重要。
LayerNorm 直接在每个样本的维度上工作，使得它在序列长度变化的情况下更为稳定。

批归一化（Batch Normalization）

批归一化是在一个小批量的维度上进行归一化，这意味着它依赖于批次中所有样本的统计信息。因此，BatchNorm的行为会随着批次大小和内容的变化而变化，这在训练和推理时可能导致不一致的表现。
在处理变长序列和自注意力结构时，BatchNorm可能不如 LayerNorm 高效，因为变长输入使得批次间的统计信息更加不稳定。
BatchNorm在训练时计算当前批次的均值和方差，在推理时使用整个训练集的移动平均统计信息。这种依赖于批次统计信息的特性使得 BatchNorm在小批量或在线学习场景中表现不佳。

标签：知识点,Transformer,面试,归一化,序列,BatchNorm,LayerNorm,Normalization
From： https://www.cnblogs.com/qiaoqifa/p/18427009

2024最新金三银四面经：166位粉丝面试大厂经验总结（附面试真题）
大厂需要什么样的人？==========大厂对于非高P职位，面试标准其实很简单能干活Java基础要好最好熟悉些分布式框架相信这些标准大部分公司都差不多前段时间，帮一些粉丝进行了模拟面试，工作经验在3到5年间。不少候选人能力其实不差，但面试时没准备或不会说，这样的人可能在进......
面试：多线程顺序打印
在多线程中有多种方法让线程按特定顺序执行，可以用线程类的join()方法在一个线程中启动另一个线程，另外一个线程完成该线程继续执行。比如说：使用join方法，T3调用T2，T2调用T1，这样就能确保T1就会先完成而T3最后完成。定义三个类，分别实现Runnable接......
python面试题
python是什么？Python是一种开放原始码、直译式、可携式、面向对象的程序语言，具有模块、多线程、异常处理以及自动内存管理功能。广泛应用包括Web开发（如Django和Flask框架）、数据科学（如Pandas和NumPy库）、机器学习（如TensorFlow和PyTorch框架）、自动化脚本、科学计算等。算法是什么？......
Java面试题大全（全网最全，持续更新）初级（2）
1.基础语法1.1.Java的数据类型有哪些？Java有两种数据类型：基本数据类型（PrimitiveTypes）：包括byte、short、int、long、float、double、char、boolean。引用数据类型（ReferenceTypes）：包括类、接口、数组等。1.2.final关键字有什么作用？final关键字可以用来修饰类、方......
25豪迈面试/机械研发工程师攻略
25豪迈机械面试面试题目+答案豪迈面试/机械研发工程师:一面问题：1、高考成绩&四六级成绩回答示例：“我的高考成绩虽然不能直接反映我的专业能力，但它是我努力学习的证明。至于四六级成绩，我顺利通过了大学英语六级考试，这有助于我在阅读英文技术文档和国际交流时更加自如。”......
25石头科技机械结构工程师机械面试问题攻略
25石头科技机械结构工程师面试心得石头科技面试题目+答案免费资源：【免费】25石头科技机械结构工程师机械面试心得资源-CSDN文库https://download.csdn.net/download/m0_72216164/89768935?spm=1001.2014.3001.5503下面分享石头科技机械结构工程师面试全过程。①一面（40min）......
WebSocket相关知识点
文章目录一、数据实时推送实现1.轮询（Polling）2.长连接（LongPolling）3.WebSocket二、代码实现后端实现1.引入依赖2.配置类3.WebSocket服务类4.定时任务前端实现测试工具推荐三、常见错误及解决方案错误1:参数缺失或注解错误错误2:遍历集合时修改集合导致的并......
【面试经验】商汤NLP一面
整体不到1h前20min讲了一个项目，没太详细问。然后八股：Llama2架构(embedding,transformerblock,LMhead)Llama2transformerblock里做了哪些改变(RMSNorm,RoPE,SwiGLU,PreNorm不太清楚说全了没)为什么用RMSNorm不用LayerNorm(答参数量少，不太对)为什么用RoPE不用绝......
【面试经验】大疆2024届秋招控制算法岗笔试
建议之后想进大疆控制方向的学弟学妹们，准备好以下几点，笔试挂掉的血泪教训：1、经典控制理论和现代控制理论经典控制里面的拉式变换、传递函数建立、稳定性裕量、稳定性判据、系统校正和零极点配置，要熟练掌握；现代控制理论里面根据动态系统列状态空间方程，观测器估计器收敛性分......
Java集合类面试题：Map接口（链表、HashMap、红黑树）
收集大量Java经典面试题目......

训练过程为什么需要 Mask 机制？

mask机制如何实现？

6 Transformer 中的Positional Encoding有什么作用？

7 Transformer 如何处理长距离依赖问题？

8 Layer Normalization的作用是什么？

9 能否用Batch Normalizatioin?

层归一化（Layer Normalization）

批归一化（Batch Normalization）

相关文章

赞助商

阅读排行

面试 知识点

训练过程为什么需要 Mask 机制？

mask机制如何实现？

6 Transformer 中的Positional Encoding有什么作用？

7 Transformer 如何处理长距离依赖问题？

8 Layer Normalization的作用是什么？

9 能否用Batch Normalizatioin?

层归一化（Layer Normalization）

批归一化（Batch Normalization）

相关文章

赞助商

阅读排行

面试知识点