转载：【AI系统】计算图基本介绍

时间：2024-12-12 15:46:22浏览次数：2

在 AI 框架发展的最近一个阶段，技术上主要以计算图来描述神经网络。前期实践最终催生出了工业级 AI：TensorFlow 和 PyTorch，这一时期同时伴随着如 Chainer、DyNet、CNTK、PaddlePaddle、JAX 等激发了框架设计灵感的诸多实验课程。

TensorFlow 和 PyTorch，特别是 PyTorch 代表了今天 AI 框架两种不同的设计路径：系统性能优先改善灵活性和灵活性易用性优先改善系统性能。这两种选择，随着神经网络算法研究和应用的更进一步发展，使得 AI 框架在技术实现方案的巨大差异。

随着神经网络模型越来越复杂，包括混合专家模型 MOE、生成对抗网络 GAN、注意力模型 Attention Transformer 等。复杂的模型结构需要 AI 框架能够对模型算子的执行依赖关系、梯度计算以及训练参数进行快速高效的分析，便于优化模型结构、制定调度执行策略以及实现自动化梯度计算，从而提高 AI 框架训练的效率。

综上所述，目前主流的 AI 框架都选择使用计算图来抽象神经网络计算表达，通过通用的数据结构（张量）来理解、表达和执行神经网络模型，通过计算图可以把 AI 系统化的问题形象地表示出来。

有了对计算图的基本了解之后，就开始深入地了解计算图，跟自动微分之间的关系。即计算图、神经网络在真正执行计算，反向传播如何传播，如何表达自动微分的概念，而不是停留在抽象的数学含义。

神经网络的训练流程主要包括一下五个过程：1）前向计算、2）计算损失、3）自动求导、4）反向传播、5）更新模型参数。在基于计算图的 AI 框架中，这五个阶段统一表示为由基本算子构成的计算图，算子是数据流图中的一个节点，由后端进行高效实现。

但是在程序实现过程中，会遇到很多编程性问题，例如控制流（if、else、while、for 等）跟程序相关，而非跟计算和数学表示相关的内容。因此会展开计算图和控制流之间的关系，也深入地去探讨计算关于调度和具体的执行方式，从而更好地、灵活地表达计算图。

如果您想了解更多AI知识，与AI专业人士交流，请立即访问昇腾社区官方网站https://www.hiascend.com/或者深入研读《AI系统：原理与架构》一书，这里汇聚了海量的AI学习资源和实践课程，为您的AI技术成长提供强劲动力。不仅如此，您还有机会投身于全国昇腾AI创新大赛和昇腾AI开发者创享日等盛事，发现AI世界的无限奥秘~
转载自：| https://www.cnblogs.com/ZOMI/articles/18562843 | header |
| ---------------------------------------------- | ------ |
| | |

标签：框架,AI,模型,PyTorch,神经网络,计算,转载
From： https://www.cnblogs.com/ewr67/p/18602697

转载：【AI系统】自动微分的挑战&未来
在前面的文章里面，分别介绍了什么是自动微分、如何实现自动微分，以及更加深入的自动微分的基本数学原理，并贯以具体的代码实现例子来说明业界主流的AI框架在自动微分实现方法，希望让你更加好地掌握自动微分端到端能力。虽然计算机实现自动微分已经发展了几十年，不过在自动微分的演进......
转载：【AI系统】计算图挑战与未来
目前主流的AI框架都选择使用计算图来抽象神经网络计算表达，通过通用的数据结构（张量）来理解、表达和执行神经网络模型，通过计算图可以把AI系统化的问题形象地表示出来。计算图与框架关系计算图回顾在AI框架中，其计算图的基本组成有两个主要的元素：1）基本数据结构张量和2）基本计......
转载：【AI系统】动态图与静态图转换
从TensorFlow、PyTorch，到PaddlePaddle、MindSpore、MegEngine，主流的AI框架动静态图转换，经历了动静分离、动静结合到动静统一的发展过程。兼顾动态图易用性和静态图执行性能高效两方面优势，均具备动态图转静态图的功能，支持使用动态图编写代码，框架自动转换为静态图网络结构执行计......
转载：【AI系统】计算图的控制流实现
计算图在数学上作为一个有向无环图（DAG，DirectedAcyclicGraph），能够把神经网络模型的概念抽象出来作为同一描述，不过在计算机的编程中，会遇到很多if、else、while、for等控制流语句，有向无环图改如何表示控制流变成了计算图中一个很重要的问题。好处在于，引入控制流之后，开发者可以向计......
转载：【AI系统】计算图的调度与执行
在前面的内容介绍过，深度学习的训练过程主要分为以下三个部分：1）前向计算、2）计算损失、3）更新权重参数。在训练神经网络时，前向传播和反向传播相互依赖。对于前向传播，沿着依赖的方向遍历计算图并计算其路径上的所有变量。然后将这些用于反向传播，其中计算顺序与计算图的相反。基于计算......
转载：【AI系统】张量并行
在大模型的训练中，单个设备往往无法满足计算和存储需求，因此需要借助分布式训练技术。其中，模型并行（ModelParallelism,MP）是一种重要的方法。模型并行的基本思想是将模型的计算任务拆分到不同的设备上执行，以提高训练效率和处理更大规模的模型。下面将重点介绍模型并行中的张量并行。......
转载：【AI系统】数据并行
数据并行是一种广泛应用于分布式AI系统中的技术，旨在通过将数据集划分为多个子集并在不同计算节点上并行处理这些子集，以提高计算效率和速度。在大规模机器学习和深度学习训练过程中，数据并行可以显著加快模型训练速度，减少训练时间，提升模型性能。大部分的数据并行模型中，每个计算节......
转载：【AI系统】并行训练基本介绍
分布式训练是一种模型训练模式，它将训练工作量分散到多个工作节点上，从而大大提高了训练速度和模型准确性。虽然分布式训练可用于任何类型的AI模型训练，但将其用于大模型和计算要求较高的任务最为有利。本篇幅将围绕在PyTorch2.0中提供的多种分布式训练方式展开，包括并行训练，如：数......
转载：【AI系统】昇思MindSpore并行
本文将会介绍昇思MindSpore的并行训练技术，以及如何通过张量重排布和自动微分简化并行策略搜索，实现高效大模型训练。大模型的带来随着深度学习的发展，为了实现更高的准确率和更丰富的应用场景，训练数据集和神经网络模型的规模日益增大。特别是自然语言处理（NaturalLanguageProcess......
转载：【AI系统】流水并行
在大模型的训练中，单个设备往往无法满足计算和存储需求，因此需要借助分布式训练技术。其中，模型并行（ModelParallelism,MP）是一种重要的方法。模型并行的基本思想是将模型的计算任务拆分到不同的设备上执行，以提高训练效率和处理更大规模的模型。模型并行主要分为朴素的模型并行、张量......

转载：【AI系统】计算图基本介绍

相关文章

赞助商

阅读排行