• 2024-12-05Gradient checkpointing 核心流程详细讲解
    文章目录0.概述1.简单反向传播1.1整体流程1.2详细说明1.3总结2.初步优化版本2.1整体流程2.2详细说明2.3总结3.Checkpointed反向传播3.1整体流程3.2详细说明3.3总结4.补充:内存分配算法参考0.概述Gradientcheckpointing的核心思想是不保存所有层