LLM相关
LLM基础
-
zero shot、one shot、three shot是什么
zero shot: 零样本学习。对于模型没有见过的图像,通过已有的图像和特征相关联,从而判别新的图片
few shot: 少样本学习。通过判断测试样本与训练样本的相似性,来推测测试样本属于什么类
-
bf16和fp16有什么区别
LLM微调
-
Adpter Tuning
-
Prefix Tuning
-
LoRA原理
LoRA(Low-Rank Adaptation of Large Language Models)是一种用于高效微调大语言模型的方法。它的核心思想是在预训练模型权重矩阵上额外引入两个低秩矩阵,在微调过程中通过更新低秩矩阵从而实现在目标任务或领域的迁移,有效地减少了需要更新的参数量,并且降低了微调的计算和存储成本。训练完成后只需要将两个低秩矩阵的乘积加回到原始权重矩阵中从而得到更新后的模型。
-
QLoRA原理
LLM应用
Transformer
-
解释self attention 和 cross attention
-
为什么要除以 \(\sqrt{d}\)
\(Attn(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d}})\)
当\(d_{k}\)变大导致\(QK^{T}\)的方差变大,导致元素之间的差异变大,会造成softmax函数退化成argmax
-
BERT和Transformer的区别
-
手写Transformer
GPT相关
- GPT架构(GPT和Transformer的区别)
Llama相关
-
Llama2架构
-
Llama2 transformer block 里做了哪些改变
-
为什么Llama2中使用了RMSNorm 而不用 LayerNorm
-
为什么用RoPE不用绝对位置编码,RoPE能表示绝对位置信息吗
-
为什么现在主流都用Decoder-only而不是Encoder-decoder