首页 > 编程语言 >转载:【AI系统】芯片的编程体系

转载:【AI系统】芯片的编程体系

时间:2024-12-11 18:55:30浏览次数:5  
标签:SIMT AI 编程 芯片 SIMD ------

本篇幅主要探讨 SIMD 和 SIMT 的主要区别与联系,SIMT 与 CUDA 编程之间的关系,并且会讨论 GPU 在 SIMT 编程本质,SIMD、SIMT 与 DSA 架构,DSA 架构的主要形态。目前已经有大量的 AI 芯片研发上市,但是如何开发基于硬件的编译栈与编程体系,让开发者更好地使用 AI 芯片,更好的发挥 AI 芯片的算力,让生态更加繁荣,因此理解 AI 芯片的编程体系就显得尤为重要。
| 转载自:| https://www.cnblogs.com/ZOMI/articles/18558570 | header |
| ---------------------------------------------- | ------ |
| | | | header |
| ---- | ------ |
| | |

标签:SIMT,AI,编程,芯片,SIMD,------
From: https://www.cnblogs.com/xueaigc/p/18600500

相关文章

  • 转载:【AI系统】AI 基本理论奠定
    AI基本理论奠定虽然AI在今年取得了举世瞩目的进展与突破,但是其当前基于的核心理论神经网络等,在这波浪潮开始前已经基本奠定,并经历了多次的起起伏伏。神经网络作为AI的前身,经历了以下的发展阶段:萌芽兴奋期(约1950s)1943年,神经科学家和控制论专家WarrenMcCulloch和逻辑......
  • 转载:【AI系统】CUDA 编程模式
    前面的文章对AI芯片SIMD和SIMT计算本质进行了分析,结合英伟达CUDA实现对SIMD和SIMT进行了对比,本文将以英伟达GPU为例,讲解GPU的编程模型。GPU编程模型CUDA英伟达公司于2007年发布了CUDA,支持编程人员利用更为通用的方式对GPU进行编程,更好地发挥底层硬件强大......
  • 转载:【AI系统】AI 发展驱动力
    AI起源于上世纪五十年代,经历了几次繁荣与低谷,直到2016年谷歌旗下的DeepMind发布AlphaGo程序赢得与世界围棋冠军的比赛,大众对AI的关注与热情被重新点燃。其实AI技术早在这个标志事件之前已经在工业界很多互联网公司中得到了广泛应用与部署。例如,搜索引擎服务中的排序、......
  • 转载:【AI系统】AI 芯片的思考
    为了满足数据中心算力需求,谷歌在2014年开始研发基于特定领域架构(Domain-specificArchitecture,DSA)的TPU(TensorProcessingUnit),专门为深度学习任务设计的定制硬件加速器,加速谷歌的机器学习工作负载,特别是训练和推理大模型。DavidPatterson(大卫·帕特森)是计算机体系结构领域科......
  • 转载:【AI系统】图算 IR
    本文将围绕计算图介绍相关内容。首先介绍计算图的基本构成,包括计算图的整体介绍、与自动微分的关系、控制流的表示方法等;接着将介绍AI框架产生计算图的方式,包括产生静态图和产生动态图的方式;之后将介绍静态和动态计算图的内容,包括AI框架关于计算图的不同方案,例如现在大部分的......
  • 转载:【AI系统】AI编译器前瞻
    本文首先会基于TheDeepLearningCompiler:AComprehensiveSurvey中的调研做一个热门AI编译器的横向对比,并简要介绍几个当前常用的AI编译器。随后会分析当前AI编译器面临的诸多挑战,并展望AI编译器的未来。业界主流AI编译器对比在TheDeepLearningCompiler:A......
  • 转载:【AI系统】AI 编译器基本架构
    在上篇文章中将AI编译器的发展大致分为了3个阶段,分别为1)朴素编译器、2)专用编译器以及3)通用编译器。本文作为上一节AI编译器架构的一个延续,着重讨论AI编译器的通用架构。首先将回顾现有AI编译器架构(以PyTorch作为标杆),随后引出通用AI编译器的架构模型,并进一步介绍......
  • 转载:【AI系统】内存分配算法
    本文将介绍AI编译器前端优化部分的内存分配相关内容。在AI编译器的前端优化中,内存分配是指基于计算图进行分析和内存的管理,而实际上内存分配的实际执行是在AI编译器的后端部分完成的。本文将包括三部分内容,分别介绍模型和硬件的内存演进,内存的划分与复用好处,节省内存的算法......
  • 转载:【AI系统】布局转换原理与算法
    数据布局转换目前已经越来越多地用于编译器的前端优化,将内部数据布局转换为后端设备友好的形式。数据布局转换主要影响程序的空间局部性,所谓空间局部性指的是如果一个内存位置被引用了一次,那么程序很可能在不远的将来引用其附近的一个内存位置,它会影响到程序执行中的缓存及其他性......
  • 转载:【AI系统】AI 编译器后端优化
    AI编译器分为多层架构,最顶层由各种AI训练框架编写的神经网络模型架构,一般由Python编写,常见的AI训练框架有PyTorch、MindSpore、PaddlePaddle等。在导入AI编译器时需要用对应框架的converter功能转换为AI编译器统一的GraphIR,并在计算图级别由GraphOptimizer进......