-
量化的工作介绍;
-
W4A8;
-
SIMD中浮点数和整数指令;
-
量化的逻辑,如果计算;
-
W怎么计算到4位,A怎么计算到8位;
-
量化校准策略;
-
其他量化方法;
-
FP16训练精度损失问题如何解决;
-
增大BS为什么会减少通信次数;
-
更新和保存的overlap如何做;
-
GPT-2迁移后如何验证是对的;
-
激活值、梯度、权重分别怎么验证;
-
微调怎么做的;
-
LORA微调、Prompt微调;
-
GPU架构,A100有那些计算资源;
-
Tensor core介绍;
-
大模型训练指标MFU;
-
Nsight system;
-
CUDA内存模型介绍
-
一个block可以在多个SM上处理嘛;
-
CUDA如何隐藏不同warp之间的延时;
-
大模型结构、视觉、大语言、多模态、MoE、扩散模型;
-
常见的attention变体;
-
手撕:消除数组中的重复数;
挺迷的一场面试,感觉基本没有什么答不上来的,不清楚为什么挂掉
标签:怎么,微调,如何,滴滴,面经,面试,CUDA,量化,模型 From: https://blog.csdn.net/litterfinger/article/details/142890789