网站首页
编程语言
数据库
系统相关
其他分享
编程问答
面题
2025-01-07
【NLP高频面题 - Transformer篇】Position encoding为什么选择相加而不是拼接呢?
**【NLP高频面题-Transformer篇】Positionencoding为什么选择相加而不是拼接呢?**重要性:★首先明确:Transformer会对原始输入做嵌入(embedding),从而映射到需要的维度,可采用一个变换矩阵做矩阵乘积的方式来实现,Transformer中的positionembedding也是加在这个嵌入后
2025-01-04
NLP高频面题 - LLM架构篇】使用SwiGLU相对于ReLU有什么好处?
【NLP高频面题-LLM架构篇】使用SwiGLU相对于ReLU有什么好处?重要性:★★★
2024-12-04
【NLP高频面题 - LLM架构篇】旋转位置编码RoPE相对正弦位置编码有哪些优势?
【NLP高频面题-LLM架构篇】旋转位置编码RoPE相对正弦位置编码有哪些优势?重要性:⭐⭐⭐
2024-12-01
【NLP高频面题 - LLM架构篇】旋转位置编码RoPE如何进行外推?
【NLP高频面题-LLM架构篇】旋转位置编码RoPE如何进行外推?重要性:★★★
2024-11-30
【NLP高频面题 - LLM架构篇】旋转位置编码RoPE相对正弦位置编码有哪些优势?
【NLP高频面题-LLM架构篇】旋转位置编码RoPE相对正弦位置编码有哪些优势?重要性:⭐⭐⭐
2024-11-29
【NLP高频面题 - LLM架构篇】大模型为何使用RMSNorm代替LayerNorm?
【NLP高频面题-LLM架构篇】大模型为何使用RMSNorm代替LayerNorm?重要性:★★★
2024-11-28
【NLP高频面题 - LLM架构篇】LLM对Transformer都有哪些优化?
【NLP高频面题-LLM架构篇】LLM对Transformer都有哪些优化?⚠︎重要性:★★★
2024-11-28
【NLP高频面题 - LLM架构篇】LLM为何使用GQA代替MHA?
【NLP高频面题-LLM架构篇】LLM为何使用GQA代替MHA?重要性:★★
2024-11-28
【NLP高频面题 - LLM架构篇】LLM对Transformer都有哪些优化?
【NLP高频面题-LLM架构篇】LLM对Transformer都有哪些优化?⚠︎重要性:★★★
2024-11-26
【NLP高频面题 - 分布式训练】ZeRO1、ZeRO2、ZeRO3分别做了哪些优化?
【NLP高频面题-分布式训练】ZeRO1、ZeRO2、ZeRO3分别做了哪些优化?重要性:★★NLPGithub项目:NLP项目实践:fasterai/nlp-project-practice介绍:该仓库围绕着NLP任务模型的设计、训练、优化、部署和应用,分享大模型算法工程师的日常工作和实战经验AI藏经阁:https://gite
2024-11-25
【NLP高频面题 - LLM架构篇】什么是旋转位置编码(RoPE)?
【NLP高频面题-LLM架构篇】什么是旋转位置编码(RoPE)?重要性:★★★
2024-11-24
【LLM训练】从零训练一个大模型有哪几个核心步骤?
【LLM训练】从零训练一个大模型有哪几个核心步骤?⚠︎重要性:★★★NLPGithub项目:NLP项目实践:fasterai/nlp-project-practice介绍:该仓库围绕着NLP任务模型的设计、训练、优化、部署和应用,分享大模型算法工程师的日常工作和实战经验AI藏经阁:https://gitee.com/fas
2024-11-24
【淘汰9成NLP面试者的高频面题】RNN是如何基于时间进行参数学习(BPTT)的?
【淘汰9成NLP面试者的高频面题】RNN是如何基于时间进行参数学习(BPTT)的?重要性:★★本题主要考察面试者有有以下几点:①理解RNN循环的概念,认识到截断的BPTT的必要性②理解深度学习框架在处理反向传播时需要在保存各个时刻的中间(前向计算)数据,会消耗大量的显存这是我常用
2024-11-24
【LLM训练】从零训练一个大模型有哪几个核心步骤?
【LLM训练】从零训练一个大模型有哪几个核心步骤?⚠︎重要性:★★★NLPGithub项目:NLP项目实践:fasterai/nlp-project-practice介绍:该仓库围绕着NLP任务模型的设计、训练、优化、部署和应用,分享大模型算法工程师的日常工作和实战经验AI藏经阁:https://gitee.com/fastera
2024-11-23
【淘汰9成NLP面试者的高频面题】RNN是如何基于时间进行参数学习(BPTT)的?
【淘汰9成NLP面试者的高频面题】RNN是如何基于时间进行参数学习(BPTT)的?重要性:★★本问题主要考察面试者有有以下几点:①理解RNN循环的概念,认识到截断的BPTT的必要性②理解深度学习框架在处理反向传播时需要在保存各个时刻的中间(前向计算)数据,会消耗大量的显存这是我常用