深度学习入门(更新中)
概述
前置知识:
- 线性代数
- 微积分
- 概率论
- python基础语法(包含面向对象的知识)
- 深度学习框架pytorch的基本api调用
学习资料:
后续学习
矩阵乘法
ResNet残差神经网络学习
SGD和Adam优化器
Transformer结构
墙裂推荐
补充资料
Question
-
什么是embding层?
-
以点积注意力机制为例,说明Q,K,V如何计算?
-
多头注意力机制中,是如何处理各个注意力机制的计算结果的?
-
机器翻译实例:在transformer架构中,给定一个句子"I have a cat"。阐述transformer是如何将其翻译为"我有一只猫"
Gpipe
Question
- 什么是mini-batch?什么是micro-batch?
- Gpipe的性能评价(bubble)
DP or DDP
Question
-
为什么要数据并行?什么是数据并行,具体举一个例子?DP瓶颈在哪里?
-
什么是异步梯度更新?
-
分布式数据并行(DDP)和数据并行区别是什么?
-
Ring-AllReduce是什么,具体举个例子?
task
- 查看pytorch提供的DP的源码
Zero(Deepspeed)
Question
-
Zero提出的目的是什么?
-
zero-1,zero-2,zero-3分别干了什么事情?,在一次epoch中具体是如何计算的?
-
zero-R具体干了什么事情
-
什么是zero-offload?
Megatron-LM
Question
- Megatron 对mlp层,self-attention, 以及embeding层时如何切割和计算的?
- Megatron 对比 DP (通讯量,存储开销)
task
- 阅读Megatron-LM 源码
后续学习
Colossal Ai
阅读手册并部署