整体不到1h前20min讲了一个项目,没太详细问。
然后八股:
- Llama2架构 (embedding, transformer block, LM head)
- Llama2 transformer block里做了哪些改变 (RMSNorm, RoPE, SwiGLU, PreNorm不太清楚说全了没)
- 为什么用RMSNorm不用LayerNorm (答参数量少,不太对)
- 为什么用RoPE不用绝对位置编码,RoPE能表示绝对位置信息吗
- 为什么现在主流都用Decoder-only而不是Encoder-decoder
- LoRA原理,LoRA在用的时候可能会有哪些坑
- QLoRA原理,QLoRA里用的是哪种量化,可以看作是一种超参数 (没太理解)。
最后手写一个快排,终止条件写反了愣了五分钟,回去等消息了
标签:NLP,transformer,QLoRA,没太,Llama2,RMSNorm,RoPE,面试,商汤 From: https://blog.csdn.net/litterfinger/article/details/142433640