首页 > 编程语言 >转载:【AI系统】Ascend C 编程范式

转载:【AI系统】Ascend C 编程范式

时间:2024-12-13 23:11:07浏览次数:7  
标签:__ 范式 函数 AI Ascend LENGTH 算子 所示 数据

AI 的发展日新月异,AI 系统相关软件的更新迭代也是应接不暇,作为一篇讲授理论的文章,我们将尽可能地讨论编程范式背后的原理和思考,而少体现代码实现,以期让读者理解 Ascend C 为何这样设计,进而随时轻松理解最新的 Ascend C 算子的编写思路。

本文将针对 Ascend C 的编程范式进行详细讲解,重点讲授向量计算编程范式。

向量编程范式

基于 Ascend C 编程范式的方式实现自定义向量算子的流程如下图所示,由三个步骤组成:算子分析是进行编程的前置任务,负责明确自定义算子的各项需求,如输入输出、使用 API 接口等;核函数的定义和封装是编程的第一步,负责声明核函数的名称,并提供进入核函数运算逻辑的接口;基于算子需求实现算子类是整个核函数的核心计算逻辑,其由被分为内存初始化、数据搬入、算子计算逻辑实现、数据搬出四个部分,后三者被又被称为算子的实现流程。

image

自定义向量算子核心部分一般由两个函数组成,分别是 Init() 函数(初始化函数)与 Process() 函数(执行函数)。Init() 函数完成板外数据定位以及板上内存初始化工作;Process() 函数完成向量算子的实现,分成三个流水任务:CopyIn、Compute、CopyOut。CopyIn 负责板外数据搬入,Compute 负责向量计算,CopyOut 负责板上数据搬出。

流水线任务之间存在数据依赖,需要进行数据传递。Ascend C 中使用 TQue 队列完成任务之间的数据通信和同步,提供 EnQue、DeQue 等基础 API;TQue 队列管理不同层级的物理内存时,用一种抽象的逻辑位置(TPosition)来表达各级别的存储,代替了片上物理存储的概念,开发者无需感知硬件架构。另外,Ascend C 使用 GlobalTensorLocalTensor 作为数据的基本操作单元,它是各种指令 API 直接调用的对象,也是数据的载体。在向量编程模型中,使用到的 TQue 类型如下:搬入数据的存放位置 VECIN、搬出数据的存放位置 VECOUT。

在本文中,我们将从 add_custom 这一基本的向量算子着手,根据自定义算子的开发流程,逐步介绍如何根据向量编程范式逐步编写自定义向量算子,最后会介绍 Ascend C 向量编程如何进行数据切分。

算子分析

在开发算子代码之前需要分析算子的数学表达式、输入、输出以及计算逻辑的实现,明确需要调用的 Ascend C 接口。

  1. 明确算子的数学表达式

Ascend C 提供的向量计算接口的操作元素都为 LocalTensor,输入数据需要先搬运进片上存储,以 Add 算子为例,数学表达式为:z=x+y,使用计算接口完成两个输入参数相加,得到最终结果,再搬出到外部存储上。

  1. 明确输入和输出

Add 算子有两个输入:x 与 y,输出为 z。

本样例中算子的输入支持的数据类型为 half(float16),算子输出的数据类型与输入数据类型相同。

算子输入支持 shape(8,2048),输出 shape 与输入 shape 相同。算子输入支持的数据格式(shape)为:ND。

  1. 确定算子实现所需接口

使用 DataCopy 来实现数据搬移;由于向量计算实现较为简单,使用基础 API 完成计算逻辑的实现,在加法算子中使用双目指令接口 Add 实现 x+y;使用 EnQue、DeQue 等接口对 TQue 队列进行管理。

核函数定义与封装

在完成算子分析后,可以正式开始开发算子代码,其第一步应该完成对于核函数的定义和封装。在本文将介绍如何对函数原型进行定义,并介绍核函数定义中应该遵循的规则;随后将介绍函数原型中所需实现的内容;最后本文将完成核函数的封装,便于后续对于核函数的调用。

  1. 函数原型定义

本样例中,函数原型名为 add_custom,根据算子分析中对算子输入输出的分析,确定有 3 个参数 x,y,z,其中 x,y 为输入内存,z 为输出内存。

根据核函数定义的规则,使用__global__函数类型限定符来标识它是一个核函数,可以被<<<...>>>调用;使用__aicore__函数类型限定符来标识该核函数在设备端 AI Core 上执行;为方便起见,统一使用 GM_ADDR 宏修饰入参,表示其为入参在内存中的位置。add_custom 函数原型的定义见下方程序第 1 行所示。

  1. 调用算子类的 Init 和 Process 函数

在函数原型中,首先实例化对应的算子类,并调用该算子类的 Init()Process() 函数,如下方程序第 2-4 行所示。其中,Init() 函数负责内存初始化相关工作,Process() 函数则负责算子实现的核心逻辑。

  1. 对核函数的调用进行封装

对核函数的调用进行封装,得到 add_custom_do 函数,便于主程序调用。下方程序第 6 行所示内容表示该封装函数仅在编译运行 NPU 侧的算子时会用到,编译运行 CPU 侧的算子时,可以直接调用 add_custom 函数。

调用核函数时,除了需要传入参数 x,y,z,还需要使用<<<…>>>传入 blockDim(核函数执行的核数), l2ctrl(保留参数,设置为 nullptr), stream(应用程序中维护异步操作执行顺序的任务流对象)来规定核函数的执行配置,如下方程序第 10 行所示。

extern "C" __global__ __aicore__ void add_custom(GM_ADDR x, GM_ADDR y, GM_ADDR z){
    KernelAdd op;
    op.Init(x, y, z);
    op.Process();
}

#ifndef __CCE_KT_TEST__

// call of kernel function
void add_custom_do(uint32_t blockDim, void* l2ctrl, void* stream, uint8_t* x, uint8_t* y, uint8_t* z){
    add_custom<<<blockDim, l2ctrl, stream>>>(x, y, z);
}

#endif

算子数据通路

前文已经提到过在 Process() 函数中存在三个流水任务,分别是 CopyIn、Compute 和 CopyOut。本文将详细讲解数据在这三个任务之间的传递过程,并为后续使用 Ascend C 对其进行实现作铺垫。

向量算子三阶段任务流水的数据通路如下图所示。

image

上图纵向分为 2 部分,上部分为发生在外部存储(Global Memory)中的数据流通过程,下部分为发生在 AI Core 内(Local Memory)中的数据流通过程;横向分为 3 部分,指代 CopyIn、Compute 和 CopyOut 这三个阶段中的数据流通过程。发生在 AI Core 内的任务间数据传递统一由 TPipe 资源管理模块进行管理。

在 CopyIn 任务中,需要先将执行计算的数据 xGm、yGm 从外部存储通过 DataCopy 接口传入板上,存储为 xLocal、yLocal,并通过 EnQue 接口传入数据搬入队列 inQueueX、inQueueY 中,以便进行流水模块间的数据通信与同步。

在 Compute 任务中,需要先将 xLocal、yLocal 使用 DeQue 接口从数据搬入队列中取出,并使用相应的向量运算 API 执行计算操作得到结果 zLocal,并将 zLocal 通过 EnQue 接口传入数据搬出队列 outQueueZ 中。

在 CopyOut 任务中,需要先将结果数据 zLocal 使用 DeQue 接口从数据搬出队列中取出,并使用 DataCopy 接口将板上数据传出到外部存储 zGm 中。

上述为向量算子核心处理部分的数据通路,同时也作为一个程序设计思路,下面将介绍如何用 Ascend C 对其进行实现。

算子类实现

在对核函数的声明和定义中,我们会提到需要实例化算子类,并调用其中的两个函数来实现算子。在本文中,将首先展示算子类的成员,随后具体介绍 Init() 函数和 Process() 函数的作用与实现。

  1. 算子类成员定义

算子类的成员如下方程序所示。如第 4-5 行所示,在算子类中,需要声明对外开放的内存初始化函数 Init() 和核心处理函数 Process()。而为了实现适量算子核内计算流水操作,在向量算子中我们又将 Process()函数分为三个部分,即数据搬入阶段 CopyIn()、计算阶段 Compute()与数据搬出阶段 CopyOut()三个私有类成员,见第 6~9 行。

除了这些函数成员声明外,第 10-14 行还依次声明了内存管理对象 pipe、输入数据 TQue 队列管理对象 inQueueX 和 inQueueY、输出数据 TQue 队列管理对象 outQueueZ 以及管理输入输出 Global Memory 内存地址的对象 xGm,yGm 与 zGm,这些均作为私有成员在算子实现中被使用。

class KernelAdd {

public:
    __aicore__ inline KernelAdd() {} 
    __aicore__ inline void Init(GM_ADDR x, GM_ADDR y, GM_ADDR z){} 
    __aicore__ inline void Process(){}

private:
    __aicore__ inline void CopyIn(int32_t progress){}
    __aicore__ inline void Compute(int32_t progress){}
    __aicore__ inline void CopyOut(int32_t progress){}

private:
    TPipe pipe; 
    TQue<TPosition::VECIN, BUFFER_NUM> inQueueX, inQueueY;  
    TQue<TPosition::VECOUT, BUFFER_NUM> outQueueZ;  
    GlobalTensor<half> xGm, yGm, zGm;  
};
  1. 初始化函数 Init()函数实现

在多核并行计算中,每个核计算的数据是全部数据的一部分。Ascend C 核函数是单个核的处理函数,所以我们需要获取每个核负责的对应位置的数据。此外,我们还需要对于声明的输入输出 TQue 队列分配相应的内存空间。

Init() 函数实现见下方程序。第 2~5 行通过计算得到该核所负责的数据所在位置,其中 x、y、z 表示 3 个入参在片外的起始地址;BLOCK_LENGTH 表示单个核负责的数据长度,为数据全长与参与计算核数的商;GetBlockIdx()是与硬件感知相关的 API 接口,可以得到核所对应的编号,在该样例中为 0-7。通过这种方式可以得到该核函数需要处理的输入输出在 Global Memory 上的内存偏移地址,并将该偏移地址设置在 Global Tensor 中。

第 6~8 行通过 TPipe 内存管理对象为输入输出 TQue 分配内存。其调用 API 接口 InitBuffer(),接口入参依次为 TQue 队列名、是否启动 double buffer 机制以及单个数据块的大小(而非长度)。

1   __aicore__ inline void Init(GM_ADDR x, GM_ADDR y, GM_ADDR z)
2   {
3       xGm.SetGlobalBuffer((__gm__ half*)x + BLOCK_LENGTH * GetBlockIdx(), BLOCK_LENGTH);
4       yGm.SetGlobalBuffer((__gm__ half*)y + BLOCK_LENGTH * GetBlockIdx(), BLOCK_LENGTH);
5       zGm.SetGlobalBuffer((__gm__ half*)z + BLOCK_LENGTH * GetBlockIdx(), BLOCK_LENGTH);
6       pipe.InitBuffer(inQueueX, BUFFER_NUM, TILE_LENGTH * sizeof(half));
7       pipe.InitBuffer(inQueueY, BUFFER_NUM, TILE_LENGTH * sizeof(half));
8       pipe.InitBuffer(outQueueZ, BUFFER_NUM, TILE_LENGTH * sizeof(half));
9   }

  1. 核心处理函数 Process()函数实现

基于向量编程范式,将核函数的实现分为 3 个基本任务:CopyIn,Compute,CopyOut,Process() 函数通过调用顺序调用这三个基本任务完成核心计算任务。然而考虑到每个核内的数据仍然被进一步切分成小块,需要循环执行上述步骤,从而得到最终结果。Process() 函数的实现如下方程序所示。

1   public:
2       __aicore__ inline void Process()
3       {
4           constexpr int32_t loopCount = TILE_NUM * BUFFER_NUM;
5           for (int32_t i = 0; i < loopCount; i++) {
6               CopyIn(i);
7               Compute(i);
8               CopyOut(i);
9           }
10      }
11  private:
12      __aicore__ inline void CopyIn(int32_t progress)
13      {
14          LocalTensor<half> xLocal = inQueueX.AllocTensor<half>();
15          LocalTensor<half> yLocal = inQueueY.AllocTensor<half>();

16          DataCopy(xLocal, xGm[progress * TILE_LENGTH], TILE_LENGTH);
17          DataCopy(yLocal, yGm[progress * TILE_LENGTH], TILE_LENGTH);

18          inQueueX.EnQue(xLocal);
19          inQueueY.EnQue(yLocal);
20      }
21      __aicore__ inline void Compute(int32_t progress)
22      {
23          LocalTensor<half> xLocal = inQueueX.DeQue<half>();
24          LocalTensor<half> yLocal = inQueueY.DeQue<half>();
25          LocalTensor<half> zLocal = outQueueZ.AllocTensor<half>();

26          Add(zLocal, xLocal, yLocal, TILE_LENGTH);
27          outQueueZ.EnQue<half>(zLocal);

28          inQueueX.FreeTensor(xLocal);
29          inQueueY.FreeTensor(yLocal);
30      }
31      __aicore__ inline void CopyOut(int32_t progress)
32      {
33          LocalTensor<half> zLocal = outQueueZ.DeQue<half>();
34          DataCopy(zGm[progress * TILE_LENGTH], zLocal, TILE_LENGTH);
35          outQueueZ.FreeTensor(zLocal);
36      }

如上方程序第 4-9 行所示,Process() 函数需要首先计算每个核内的分块数量,从而确定循环执行三段流水任务的次数,随后依此循环顺序执行数据搬入任务 CopyIn()、向量计算任务 Compute() 和数据搬出任务 CopyOut()。一个简化的数据通路图如下图所示。根据此图,可以完成各个任务的程序设计。

image

  • CopyIn()私有类函数实现

使用 AllocTensor 接口为参与计算的输入分配板上存储空间,如上方程序第 14~15 行代码所示,由于定义的入参数据类型是 half 类型的,所以此处分配的空间大小也为 half。

使用 DataCopy 接口将 GlobalTensor 数据拷贝到 LocalTensor,如第 16~17 行所示,xGm、yGm 存储的是该核所需处理的所有输入,因此根据该分块对应编号找到相关的分块数据拷贝至板上。

使用 EnQue 将 LocalTensor 放入 VecIn 的 TQue 中,如第 18~19 行所示。

  • Compute()私有类函数实现

使用 DeQue 从 VecIn 中取出输入 x 和 y,如上方程序第 23-24 行所示。

使用 AllocTensor 接口为输出分配板上存储空间,如第 25 行所示。

使用 Ascend C 接口 Add 完成向量计算,如第 26 行所示。该接口是一个双目指令 2 级接口,入参分别为目的操作数、源操作数 1、源操作数 2 和输入元素个数。

使用 EnQue 将计算结果 LocalTensor 放入到 VecOut 的 TQue 中,如第 27 行所示。

使用 FreeTensor 释放不再使用的 LocalTensor,即两个用于存储输入的 LocalTensor,如第 28~29 行所示。

  • CopyOut 私有类函数实现

使用 DeQue 接口从 VecOut 的 TQue 中取出目标结果 z,如上方程序第 33 行所示。

使用 DataCopy 接口将 LocalTensor 数据拷贝到 GlobalTensor 上,如第 34 行所示。

使用 FreeTensor 将不再使用的 LocalTensor 进行回收,如第 35 行所示。

算子切分策略

正如前文所述,Ascend C 算子编程是 SPMD 编程,其使用多个核进行并行计算,在单个核内还将数据根据需求切分成若干份,降低每次计算负荷,从而起到加快计算效率的作用。这里需要注意,Ascend C 中涉及到的核数其实并不是指实际执行的硬件中所拥有的处理器核数,而是“逻辑核”的数量,即同时运行了多少个算子的实例,是同时执行此算子的进程数量。一般的,建议使用的逻辑核数量是实际处理器核数的整数倍。此外,如果条件允许,还可以进一步将每个待处理数据一分为二,开启 double buffer 机制(一种性能优化方法),实现流水线间并行,进一步减少计算单元的闲置问题。

在本 add_custom 算子样例中,设置数据整体长度 TOTAL_LENGTH 为 8* 2048,平均分配到 8 个核上运行,单核上处理的数据大小 BLOCK_LENGTH 为 2048;对于单核上的处理数据,进行数据切块,将数据切分成 8 块(并不意味着 8 块就是性能最优);切分后的每个数据块再次切分成 2 块,即可开启 double buffer。此时每个数据块的长度 TILE_LENGTH 为 128 个数据。

具体数据切分示意图下图所示,在确定一个数据的起始内存位置后,将数据整体平均分配到各个核中,随后针对单核上的数据再次进行切分,将数据切分为 8 块,并启动 double buffer 机制再次将每个数据块一分为二,得到单个数据块的长度 TILE_LENGTH。

image

数据切分中所使用的各参数定义如下程序所示:第 1 行定义了数据全长 TOTAL_LENGTH,约束了输入数据的长度;第 2 行声明了参与计算任务的核数 USE_CORE_NUM;第 3 行计算得到了单个核负责计算的数据长度 BLOCK_LENGTH;第 4 行定义了单个核中数据的切分块数 TILE_NUM;第 5 行决定了是否开启 double buffer 机制,如果不开启则规定 BUFFER_NUM = 1;第六行计算得到单个数据块的数据长度 TILE_LENGTH。

1   constexpr int32_t TOTAL_LENGTH = 8 * 2048;  
2   constexpr int32_t USE_CORE_NUM = 8;
3   constexpr int32_t BLOCK_LENGTH = TOTAL_LENGTH / USE_CORE_NUM;
4   constexpr int32_t TILE_NUM = 8; 
5   constexpr int32_t BUFFER_NUM = 2;
6   constexpr int32_t TILE_LENGTH = BLOCK_LENGTH / TILE_NUM / BUFFER_NUM;

如果您想了解更多AI知识,与AI专业人士交流,请立即访问昇腾社区官方网站https://www.hiascend.com/或者深入研读《AI系统:原理与架构》一书,这里汇聚了海量的AI学习资源和实践课程,为您的AI技术成长提供强劲动力。不仅如此,您还有机会投身于全国昇腾AI创新大赛和昇腾AI开发者创享日等盛事,发现AI世界的无限奥秘~
转载自:| https://www.cnblogs.com/ZOMI/articles/18560677 | header |
| ---------------------------------------------- | ------ |
| | |

标签:__,范式,函数,AI,Ascend,LENGTH,算子,所示,数据
From: https://www.cnblogs.com/rizhaojincheng/p/18606066

相关文章

  • 转载:【AI系统】Ascend C 语法扩展
    AscendC的本质构成其实是标准C++加上一组扩展的语法和API。本文首先对AscendC的基础语法扩展进行简要介绍,随后讨论AscendC的两种API——基础API和高阶API。接下来针对AscendC的几种关键编程对象——数据存储、任务间通信与同步,资源管理以及临时变量进行详细解读......
  • 转载:【AI系统】推理系统引言
    在深入探究AI编译原理之后,将进一步迈向一个与日常生活紧密相连的新领域。这个领域无处不在,无论是日常使用的购物应用、观看在线视频的平台,还是钟爱的游戏,它们都与这个领域息息相关。该领域,便是推理系统与推理引擎。那么,推理系统与推理引擎究竟是什么呢?它们之间又存在着怎样的差......
  • 转载:【AI系统】推理流程全景
    本文介绍神经网络模型在部署态中的两种方式:云侧部署和边缘侧部署。其中,云侧部署适用于云服务器等具备强大计算能力和存储空间的环境,可以实现高吞吐量和集中的数据管理,但可能面临高成本、网络延迟和数据隐私等挑战。边缘侧部署适用于边缘设备和移动设备等资源受限的环境,可以通过模......
  • 转载:【AI系统】推理系统介绍
    推理系统是一个专门用于部署神经网络模型,执行推理预测任务的AI系统。它类似于传统的Web服务或移动端应用系统,但专注于AI模型的部署与运行。通过推理系统,可以将神经网络模型部署到云端或者边缘端,并服务和处理用户的请求。因此,推理系统也需要应对模型部署和服务生命周期中遇到......
  • 转载:【AI系统】推理系统架构
    推理系统架构是AI领域中的一个关键组成部分,它负责将训练好的模型应用于实际问题,从而实现智能决策和自动化。在构建一个高效的推理系统时,我们不仅需要考虑其性能和准确性,还需要确保系统的可扩展性、灵活性以及对不同业务需求的适应性。在本文中,我们将主要以NVIDIATritonInfere......
  • 影刀AI Power 之“渣男语录”
    简介:影刀AIPower是一款强大的自动化工具,它能够帮助用户简化和优化各种任务流程。现在借助影刀AIPower的灵活性和智能性,我在里面开发了一款特别的应用——“渣男语录”生成器。通过在对话框中输入关键字,“渣男语录”生成器可以迅速检索并组合出一段符合情境的“渣男语录”,以......
  • [掌握LangChain:如何有效传递数据到链式步骤中]
    掌握LangChain:如何有效传递数据到链式步骤中在构建链式程序时,能够在不同步骤之间有效地传递数据是至关重要的。在这篇文章中,我们将学习如何在LangChain中使用RunnablePassthrough类轻松处理这一任务,以及如何结合RunnableParallel来实现复杂的数据流传递。引言当我们在编......
  • 前端 AI 应用开发实战:构建高性能的 AI 辅助编程系统
    "能不能让AI直接在我的代码编辑器里帮我写代码?"两个月前,我们团队接到了这样一个挑战。作为一名前端工程师,我深知在浏览器中构建一个复杂的AI编程助手并非易事。今天,我想分享我们是如何一步步实现这个系统的。......
  • 转载:【AI系统】推理引擎示例:AscendCL
    AscendCL作为华为Ascend系列AI处理器的软件开发框架,为用户提供了强大的编程支持。通过AscendCL,开发者可以更加高效地进行AI应用的开发和优化,从而加速AI技术在各个领域的应用和落地。AscendCL的易用性和高效性,使得它成为开发AI应用的重要工具之一。本文将介绍Ascend......
  • 转载:【AI系统】昇腾推理引擎 MindIE
    本文将介绍华为昇腾推理引擎MindIE的详细内容,包括其基本介绍、关键功能特性以及不同组件的详细描述。本文内容将深入探讨MindIE的三个主要组件:MindIE-Service、MindIE-Torch和MindIE-RT,以及它们在服务化部署、大模型推理和推理运行时方面的功能特性和应用场景。通过本文的......