首页 > 其他分享 >ChatGPT搅动AI芯片的“一池春水”

ChatGPT搅动AI芯片的“一池春水”

时间:2023-12-01 18:31:56浏览次数:37  
标签:伟达 A100 AI 芯片 ChatGPT 算力 一池春水

这是IC男奋斗史的第37篇原创

本文1520字,预计阅读4分钟。

ChatGPT是什么以及它的发展历程,相信各位老铁们都已经很清楚,杰哥便不再赘述。大家都知道,杰哥是做AI芯片的,ChatGPT与杰哥的职业发展可谓是息息相关。今天杰哥想研究一下ChatGPT与AI芯片之间的关系。

ChatGPT的算力成本

有数据表明,ChatGPT训练需要消耗的算力大约为3640PF-days。也就是说,每秒运算一千万亿次的话需要运行3640天。假设我们有一个500P算力 (每秒可以进行500千万亿次运算) 的超算中心,完成ChatGPT训练需要花费7到8天时间。如果我们有7到8个这样的超算中心并行运算,完成训练就只需要花费1天时间。

参考近期超算中心的建设投资规模,一个算力约500P的超算中心总投资约为30亿人民币。要支撑ChatGPT的运行,至少需要7到8个这样的数据中心。也就是说,对于ChatGPT来说光基础设施的投入就要两百亿以上。

作为一家创业公司,OpenAI选择的还是一种相对轻快的数据存储和运行方法——上云。目前ChatGPT的训练都是基于微软的超算基础设施完成的。微软的超算设施主要是由英伟达V100和A100 GPU组成的高带宽集群。后续应该会升级到性能更强大的英伟达H100 GPU计算集群。

2023年1月23日,微软宣布向OpenAI追加100亿美元的投资,以支持其在ChatGPT领域的开发与拓展。2月3日,谷歌向人工智能初创公司Anthropic AI投资约4亿美元,后者正在测试ChatGPT的竞品Claude。ChatGPT背后巨大的算力需求将会给高性能计算领域带来巨大的市场需求,这其中收益最大的当属以英伟达为代表的云端AI芯片企业。

ChatGPT背后的AI芯片

英伟达目前能支持ChatGPT运行的主要产品有V100、A100和T100三个系列。同样的,国产AI芯片也拥有训练能力,也可以支持ChatGPT的运行。代表产品有寒武纪思元290、壁仞科技BR100、燧原科技的邃思2.0以及百度昆仑芯2代等。

1 英伟达V100/A100/H100

V100:单颗芯片可以提供125TFLOPS的算力 (以FP16计算) ,可以使用新一代 NVIDIA NVLink技术以高达 300 GB/s 的速度连接多个 V100 GPU,从而打造出功能极其强大的计算服务器。

A100:单颗芯片可以提供624TFLOPS的算力 (以FP16计算) ,与 NVIDIA NVLink、NVIDIA NVSwitch、PCIe 4.0、NVIDIA InfiniBand和NVIDIA Magnum IO SDK 结合使用时,它能扩展到数千个A100 GPU。2048个A100 GPU可在一分钟内成规模地处理 BERT之类的训练工作负载,这是非常快速的解决问题速度。

H100:单颗芯片可以提供2000TFLOPS=2PFLOPS的算力 (以FP16计算) ,使用 NVIDIA NVLink Switch系统,可连接多达256个 H100来加速百亿亿级 (Exascale)工作负载,另外可通过专用的 Transformer引擎来处理万亿参数语言模型。与上一代产品相比,H100 的综合技术创新可以将大型语言模型的速度提高30倍,从而提供业界领先的对话式AI。

2 寒武纪思元290

思元290:单颗芯片可以提供256TOPS (以INT16计算),寒武纪玄思1000智能加速器整机在2U机箱内集成了4颗思元290智能芯片,最大可实现1PetaOPS (以INT16计算) AI算力。目前寒武纪思元290芯片的下一代产品还在研发中,根据公开信息,算力预计与英伟达A100相当。

3 壁仞科技BR100

BR100:单颗芯片可以提供960TFLOPS(以FP16计算),最高可以实现8张卡全互连。其组成的性能强大的海玄服务器,可以实现单节点峰值浮点算力达到 8PFLOPS(每秒8000万亿次运算)。

4 燧原科技邃思2.0

邃思2.0:单颗芯片可以提供128TFLOPS(以FP16计算),云燧智算集群搭载多个邃思2.0芯片,在典型配置下每个单元可以实现8PFLOPS AI算力,并且支持按需横向扩容,可支持超千卡规模集群。

5 百度昆仑芯2代

昆仑芯2代:单颗芯片可以提供256TOPSINT8或者128TFLOPSFP16的算力。搭载8个昆仑芯2代芯片的AI服务器,单机可提供高达1PFLOPS的AI算力和256G显存。基于多芯片间高速互联K-Link技术,可构建大规模并行计算集群、支持超大型模型训练和推理的需求。

总结下来,国产AI芯片与英伟达产品的差距在硬件性能上差距不大,基本上也就是半代到一代之间的差距。例如寒武纪和壁仞科技的最新款云端训练芯片思元590和BR100在算力都接近甚至超过英伟达A100,但是要落后于英伟达下一代产品H100。所以,国内发展类似于ChatGPT这样的机器人模型在硬件支持上是具备国产化的条件的。

国内高性能计算AI芯片的发展在硬件上与国外顶尖企业的差距其实并不大,反而在软件生态上的差距很大。国内AI芯片企业要真正达到国外巨头的水平,还有很长的路要走。

全文完。

标签:伟达,A100,AI,芯片,ChatGPT,算力,一池春水
From: https://blog.51cto.com/u_16325681/8648511

相关文章

  • 关于Vue3中调试APP触发异常:exception:white screen cause create instanceContext fai
    bug:reportJSException>>>>exceptionfunction:createInstanceContext,exception:whitescreencausecreateinstanceContextfailed,checkjsstack->atuseStore(app-service.js:2309:15)问题在于:使用了pinia,并且在所有js文件或ts文件中调用超前,导致的加载错误 解决方......
  • AI人人必修-提示词工程+大模型多场景实战(丰富资料)
    AI人人必修-提示词工程+大模型多场景实战(丰富资料)51xuebc+尾缀大模型多场景实战:完成AI应用的普遍应用与深度探究随着人工智能技术的不时开展,大模型多场景实战成为了AI应用范畴的一种重要趋向。大模型是指巨型范围的深度学习模型,具有参数量宏大、数据吞吐量高等特性,可以完成更复杂......
  • 基于AI的架构优化:创新数据集构造法提升Feature envy坏味道检测与重构准确率
    本文分享自华为云社区《华为云基于AI实现架构坏味道重构取得业界突破,相应文章已被软工顶会FSE2023收录》,作者:华为云软件分析Lab。基于AI技术实现架构坏味道检测与重构建议是当前业界比较流行的做法,但此做法往往存在一个通病,即训练数据集的质量问题,如何构建大规模、高质量的训练......
  • 推荐一款免费的AI写真生成工具-72写真,让你的照片变得更加生动
    导语:随着人工智能技术的不断发展,AI写真生成工具正逐渐流行起来。今天,我要向大家推荐一款免费的AI写真生成工具,它可以让你的照片变得更加生动和有趣。正文:在过去,如果想要将照片进行艺术化处理或者给照片添加一些特殊效果,往往需要借助专业的图像处理软件或者寻求专业人士的帮助。......
  • eopenai使用说明书
    第一步登录登录连接,没有账号则需要注册; 第二步领取兑换码(如果有余额可不领取;如果有兑换码可直接兑换兑换连接)  领取完成余额则会增加,注意,目前每天仅支持免费领取一次 第三步创建令牌(如果已经有令牌则可不用创建)点击提交,再次点击令牌    然后就可以开始......
  • ORA-01187 cannot read from file 201 because it failed verification tests..temp01
    Description:WegetthismessageinrunningtheUpgradeExpress20-21export(create_customer_data):ORA-01187:cannotreadfromfile201becauseitfailedverificationtestsORA-01110:datafile201:'/exlibris/oradata/aleph20/aleph20_temp01.dbf'O......
  • 【百家稷学】“迈向卓越”AIGC生态高级工程师实训(东莞华为松山湖基地实训)...
    继续咱们百家稷学专题,本次是有三AI在东莞华为松山湖基地进行的培训。百家稷学专题的目标,是走进100所高校和企业进行学习与分享。分享主题本次分享是在东莞华为松山湖基地,由社区与华为云负责组织,主题是《“迈向卓越”AIGC生态高级研修工程师》,分享人言有三。本次主题聚焦当前AIGC领......
  • 【ToolChains】| CMake 技巧
    判断CMake编译环境编译类型CMAKE_BUILD_TYPE可取值为:Debug,Release,RelWithDebInfo,MinSizeRel等预设值if(CMAKE_BUILD_TYPEMATCHESDebug)#dosomethingendif()系统环境CMAKE_SYSTEM_NAME代表当前系统的类型,值有ANDROID,APPLE,IOS,UNIX,WIN32,WINC......
  • RISC-V内核突破百亿颗 RVV1.0如何解锁端侧AI市场应用潜能
    RISC-V内核增长迅猛,2022年就实现了破百亿颗出货量。作为一款开源的RISC架构,其凭借轻量化、优秀的可扩展性与不断增强的软件兼容性吸引越来越多的企业采用。不断扩张的生态版图之下,RISC-V内核的增长曲线也愈发陡峭。根据RISC-V基金会的数据和预测,2022年采用RISC-V芯片架构的处理器......
  • rust的musl toolchain
    rust项目常常会使用musl作为编译target,这个时候就会使用musl的工具链。musltoolchain安装在$HOME/.rustup/toolchain下面。通常可以用rustup安装,比如:rustupinstallstable-unknown-linux-musl也可以使用rust官方提供的脚本:curl--proto'=https'--tlsv1.2-sSfhttps://......