首页 > 其他分享 >英伟达2000TOPS大算力与云端芯片

英伟达2000TOPS大算力与云端芯片

时间:2022-09-23 06:11:05浏览次数:85  
标签:伟达 训练 芯片 驾驶 AI 大算力 算力 2000TOPS

英伟达2000TOPS大算力与云端芯片

参考文献链接

https://mp.weixin.qq.com/s/oi14v83S_0iUBY31xqvjPQ

https://mp.weixin.qq.com/s/HkfgdaVJoaX7N_3IXGXwLA

https://mp.weixin.qq.com/s/ZKC9ahMAPx790cexomzTcQ

https://mp.weixin.qq.com/s/Qy_7rug50odJZyTK5S001w

2000 TOPS 算力,英伟达就能统治自动驾驶芯片市场?

2000 TOPS 算力!

在今年的英伟达 GTC 上,英伟达凭借新一代自动驾驶芯片 Thor 刷新了自动驾驶的算力天花板。
一颗自动驾驶芯片能不能上车,车企一般有 5 个评价维度:
性能(即算力)、成本功耗易用性(或易开发性)和同构性(芯片对其他系统的兼容性)。
算力,首当其冲成为评价一辆汽车是否智能的重要指标,这也是在用户端最容易被感知的一个指标。
行业里有一种说法,算力越大,自动驾驶系统就越聪明。这意味着产品经理和工程师可以往自动驾驶系统里装入更多、更高级的功能。

 

 从 2015 年开始,英伟达开始以一年一代产品的节奏,迭代出了 DRIVE PX、DRIVE PX2、Drive PX Xavier、DRIVE PX Pegasus、DRIVEAGX Orin、DRIVE Thor 等自动驾驶芯片平台。

算下来,英伟达芯片的算力以每年数倍的速度在提升,甚至还有车企和自动驾驶公司向英伟达要求更多的算力。
但问题来了:算力越高,芯片公司就能彻底统治自动驾驶芯片市场吗?
今天我们就来聊一聊当前自动驾驶芯片的众生相。
01英伟达 Orin:大算力,完善的工具链,新势力的一致选择
「我们从众多车企交流获得的消息来看,除了一汽外,基本都在使用和测试英伟达的芯片。在 L2+、L3 这个市场,英伟达基本上处在一个垄断地位。」一位熟悉汽车行业供应链的知情人士表示。
据不完全统计,在电动乘用车领域,英伟达已经拿下了全球 30 家主流车企中 20 的订单,包括奔驰、捷豹路虎、沃尔沃、蔚来、理想、小鹏、智己、飞凡、极氪等。
在自动驾驶卡车领域,英伟达拿下了全球 10 家主流企业中 7 家的订单,包括图森、智加、Navistar 等。

 

 在自动驾驶出租车(Robotaxi)领域,则拿下了主流自动驾驶公司:滴滴自动驾驶、文远知行、小马智行、元戎启行、轻舟智航等。 事实上,面向下一代高端旗舰类产品,有大算力需求的车企都在追捧英伟达 Orin,而车企中智能化标杆的蔚来、理想、小鹏先后选择 Orin,给英伟达带来了巨大的「破圈效应」。

 

 9 月 20 日,在英伟达 GTC 上发布的新一代自动驾驶芯片 Thor,算力达到 2000 TOPS

黄仁勋表示,只用一颗 Thor 芯片就能集成智能汽车所需的算力需求,包括高阶自动驾驶、车载操作系统、智能座舱、自主泊车等。
用黄仁勋的话说,One chip to rule them all!而首发搭载 Thor 芯片上车的是车企,则是极氪。
为什么英伟达的芯片方案大受这些公司的欢迎?
这就要从英伟达的老本行 GPU 视觉图像处理说起。
相比 CPU,GPU 更适合 AI 时代的神经元算法,能够进行算法的大规模吞吐并行处理。
而围绕智能汽车,英伟达提供的不仅仅是一颗芯片,更是围绕硬件、算法、完整工具链以及整合多传感器生态的方式,为车企提供更为灵活的解决方案。
首先,英伟达提供覆盖全面的算法。
从相对成熟的 CNN,RNN 到现在热门 Transformer, GAN 以及 RL 和各类新算法,英伟达都能够提供成熟多种算法供开发者调用。

 

 其次,英伟达提供 DRIVE Hyperion Developer Kit 自动驾驶开发套件,包括:

 Drive AGX 可以作为装车硬件参考;

 DGX 系列提供数据处理,训练;

 Constellation 提供虚拟仿真硬件。

这是一套智能驾驶汽车参考架构,可加速生产过程中的开发、测试和验证。
基于 Hyerion 8 开发套件受到不少车企的欢迎,包括即将在 2024 年和 2025 年上市的奔驰和捷豹路虎车型。未来还有比亚迪,Lucid 等车企。
而 Hyerion 9 将在 2026 年推出。
其三,在软件层面,英伟达 Drive OS 提供基础软件堆栈,包含嵌入式实时操作系统 (RTOS)、Hypervisor、CUDA 库、TensorRT 和其他访问处理芯片的模块组成。Driveworks 综合模块库类似于软件的中间件,方便进行开发调用。
相比 Mobileye 的「黑盒」交付,开放、灵活的英伟达更深受车企以及自动驾驶公司的青睐。
当然,英伟达的 GPU 方案并非完美。
比如英伟达芯片的功耗和利用率上一直在行业内被诟病。
「Xavier、Orin 的利用率基本上是 30%,怎样优化基本都是 30%。」一位行业人士透露。
但即便如此,这位行业人士表示,「从短期来看,三年以内能够最有竞争力的计算平台依然英伟达。虽然它的功耗高,利用率也不高,但是它有非常好的算子库。
如果我们给它的算子库打 90 分,国内基本上最好的也就是在 60-70 分之间,差距挺大的。」
对于在上层进行 AI 算法开发的一些工程师而言,这个算子库的丰富程度非常有价值。
这是因为,由于每家芯片公司的底层架构不同,任何一个模型在不同的芯片和硬件平台上运行,一定要做优化。如果算子库足够丰富,能够把自动驾驶模型更快、更高效地链接到计算平台上。
02德州仪器 TDA4 :中低端车型最受欢迎的芯片方案
「TDA4 芯片原来是给座舱用的芯片,后来逐渐在驾驶的域控上开发应用,有着非常好的效果。TDA4 虽然算力只有 10T 左右,但整个芯片的优化、成熟度与开发度还是非常好的。目前国内的车厂选择 TDA4 的车型,粗略统计大概是 40%-50% 之间的覆盖率。」
在谈到德州仪器推出的 TDA4 这颗芯片时,一位业内人士这样表示。
德州仪器的 TDA4 芯片有若干个版本:
  • TDA4 VL,算力 4TOPS
TDA4 VM,算力 8TOPS
TDA4 VH,算力 32 TOPS
目前已经量产的是 TDA4 VM。
据了解,德州仪器推出的下一代芯片 TDA5,算力将突破 100 Tops。
2020 年 1 月,德州仪器发布了 Jacinto 7 处理器平台。这个平台首先面世的两款汽车级芯片,其中一颗是应用于 ADAS 的 TDA4VM 芯片。
这款面向新一代智能驾驶应用所推出的 TDA4 系列芯片,在性能和功耗方面都有较大提升,可以提供 8TOPS 甚至是更高的深度学习性能。
它配有包括 Cortex A72、Cortex R5F、DSP、MMA 等在内的不同类型处理器,由对应的核或者加速器处理各自擅长的任务,让计算平台的效率得以提高。
可以说,多级处理能力和低功耗是 TDA4VM 芯片的两大特点。
  • 支持深度学习和实时图像处理
5-20W 的功耗和性能效率便可以执行高性能 ADAS 操作,无需主动冷却
带有通用软件平台的有针对性的集成 Soc 能够降低系统复杂性和开发成本
单芯片支持接入 4-6 个 300 万像素摄像头,可以提升车辆感知和环视处理能力
TDA4VM 集成了各种加速器、深度学习处理器和片内存储器,可以做到全功能可编程的集成平台,在处理器上可支持 800 万像素的摄像头的接入,无论是在雨天、雾天,更大尺寸的摄像头的接入能够让车辆看得更远。
作为车规级芯片的老牌供应商,TI 也能够提供一整套解决方案。
随着电子电气架构升级(从分布式向集中式升级),行泊一体的方案在成本上更具优势。
包括百度、大疆、纽劢(Nullmax)、易航智能、禾多、追势等众多的自动驾驶解决方案公司,都基于 TDA4 芯片开发行泊一体方案。
据了解,通过泊车与行车功能的集成以及传感器的共用,可实现 L2+的增强感知能力,提高安全性和用户体验,相比传统 1V1R+APA 的技术方案,成本可以节省 20%~30%
过去几年,第一代产品往往是以 Mobileye EyeQ4 芯片为主导,有成熟的感知算法,性价比较高,容易走量。但受制于 Mobileye 的「黑盒」交付,算法修改较为困难。
而以德州仪器 TDA4 芯片的行泊一体方案,算力相较于 Mobileye EyeQ4 有明显提升,同时增加感知和规控算法的开发度。
其次,是在泊车域+行车域的设计大趋势下,系统对于计算平台的算力的要求更上一层楼。
与此同时,车厂需要一个供货稳定、足够大、有足够的影响力且安全性极强的芯片。
用业内人士的话说,德州仪器这颗 TDA4 就「更靠谱」了。
还有一个事情值得一提:
2021 年 11 月,德赛西威与德州仪器签署合作备忘录,开展联合研发与深层合作,共同发布了全新智能驾驶解决方案――IPU02 智能驾驶域控制器
IPU02 是德赛西威基于 TI TDA4 芯片打造而成的第三款智能驾驶域控制器,也是全球首个在高级辅助驾驶落地的 TDA4 量产项目。
据德赛西威智能驾驶事业部总经理李乐乐透露,IPU02 已经进入了上汽、长城、广汽、通用以及造车新势力等车企配套体系,大部分项目会在 2022 年陆续量产爬坡,而项目落地的高峰可能会在 2023 年。
03高通 Snapdragon Ride:自动驾驶芯片黑马

 

 2020 年 1 月,高通发布了全新的自动驾驶平台 Snapdragon Ride

这个平台采用了可扩展且模块化的高性能异构多核 CPU、高能效的 AI 与计算机视觉引擎,以及 GPU。
同时包括 Snapdragon Ride 安全系统级芯片、Snapdragon Ride 安全加速器和 Snapdragon Ride 自动驾驶软件栈。
目前高通已经和通用、长城、宝马、大众等车企达成了合作,将在下一代新车上搭载 Ride 平台。

 

 高通 Snapdragon Ride 有两大优势:

一是可扩展性
  • L1/L2 级别主动安全 ADAS——面向具备自动紧急制动、交通标志识别和车道保持辅助功能的汽车;
L2+级别 ADAS——面向在高速公路上进行自动驾驶、支持自助泊车,以及可在频繁停车的城市交通环境中进行驾驶的汽车;
L4/L5 级别完全自动驾驶——面向在城市交通环境中的自动驾驶、自动驾驶出租车和机器人物流。
针对 L1-L3 自动驾驶,Snapdragon Ride 能够提供硬件+软件栈的完整系统级解决方案,可以满足汽车制造商对于不同自动驾驶级别的可扩展性需求。
二是经济性和高能效
能效是车企和车主最关心的问题。
Snapdragon Ride 能够支持 L1 级别应用所需的 30 TOPS 算力,到 L4/L5 级别驾驶所需的 700 TOPS 算力,并且最顶级平台上多个 SoC、加速器软硬件解决方案共同消耗的最高功率只有 130 瓦。
与采用 X86 架构的自动驾驶平台高达 700 瓦的功率相比,采用 ARM 架构的 Snapdragon Ride 平台具有巨大的能效优势。
有业内人士评价:
「目前来看,高通的整个驾驶芯片的成熟度要比英伟达低。长期看,包括高通、华为、Mobileye 以及国内的其他芯片创业公司,走的是 ASIC 路线。从利用率、功耗这些关键指标上来讲,高通可能会在三年之后,也就是 2024 年 2025 年期间抢走很大一个市场。」
04国产大算力自动驾驶芯片的崛起
国产自主替代以及相比 Mobileye 更加灵活、开放的交付方案,给了国产自动驾驶芯片新的发展机遇。
「我们了解到一些大车企内部决策层明确说,从 2021 年第四季度开始已经明确不用 Mobileye 芯片,也不会去测英伟达。新的平台基本上还是选国内的,包括华为、地平线、黑芝麻这样的公司。」
可以说,国产自主替代对国内创业公司、域控产业提供了非常好的助力。
据接近供应链的的人士表示,基本上在今年第四季度会有搭载国产芯片的主流车型的量产。
2023 年则是国产芯片上车大年,国内芯片公司在 2023 年将取得非常好的成绩。
另一方面,ADAS 巨头 Mobileye,车企对其是「既爱又恨」:
  • Mobileye 对芯片的利用率优化已经接近完美,甚至被一些工程师评价为「神一般的存在」。
但与此同时,Mobileye 也被诟病为不开放,随之带来的问题是研发效率的节奏缓慢。如果车企把反馈意见提交给 Mobileye,Mobileye 内部再去研发,整个周期基本按「年」计。
地平线的路线与英伟达模式非常相似,客户包括一级供应商、整车厂、和出行服务商,为他们提供芯片、硬件的参考设计,以及提供工具链和算法等方案。

 

 截止今年 8 月,地平线已经拥有超过 20 个合作车企,70 余款前装定点车型,目前征程系列芯片的出货量超过 100 颗。

地平线已经与上汽、长城、江淮、长安、比亚迪、哪咤、岚图等汽车厂商达成征程 5 芯片的量产合作意向。
因而行业有一种声音说,地平线的芯片是英伟达的「平价替代」。
另一个玩家是黑芝麻。
黑芝麻通过神经网络视觉感知算法、车规级 ADAS/自动驾驶芯片、配套的底层实施系统及参考设计为车企提供感知系统解决方案。
目前,黑芝麻系列芯片产品包括华山一号 A500、华山二号 A1000 和 A1000L。
黑芝麻华山二号 A1000 系列芯片已完成所有车规级认证,已经与上汽通用五菱、江淮等内的多家车企达成量产合作。
在黑芝麻最强芯片华山二号 A1000 Pro 中,搭载了黑芝麻自研的图像处理器和神经网络加速器。
其中,神经网络加速器能够让 A1000 Pro 芯片的 INT8 算力达到 106TOPS,INT4 算力达到 196TOPS。
还有一个不容忽视的重磅玩家是华为。
不过,华为更多是通过华为 MDC 呈现在大家的眼前。
华为 MDC 所采用的昇腾系列芯片,主要有昇腾 310 和升级版昇腾 910 两款芯片。 从华为官方的 MDC610 平台逻辑架构可以看出,AI 模块、ISP 模块、CPU 模块集成在一颗 SoC 中,并与外部通信,也是一颗异构架构的 SoC。 华为 MDC810,基于 MDC610 的底层打造,算力可以达到 400+ TOPS,可应用于 L4-L5 级别的辅助自动驾驶。 不过,对于 MDC810 采用的是昇腾 310 还是升级版昇腾 910,华为并未公布太多,但可以肯定的是,昇腾系列 AI 芯片是海思的自研产品。
基于华为 MDC 计算平台打造的华为的 ADS 解决方案,已经搭载进狐阿尔法 S 华为 HI 版车型以及阿维塔 11 的车型中。 华为 MDC610 也搭载在广汽埃安 AION LX、哪吒 S 等新车型上。
一定程度上,英伟达这次出击拉高了大算力芯片的门槛。
Thor 是有史以来最强的自动驾驶芯片——高达 2000 TOPS 的算力,是英伟达上一代芯片 Orin 算力的 8 ,是特斯拉 FSD 芯片的 14
但这并不意味英伟达在自动驾驶芯片市场就一骑绝尘。
汽车智能化浪潮吸引了多方玩家入场,逐渐形成了新兴芯片科技公司、传统汽车芯片厂商、消费电子芯片巨头、车企自研四大阵营。
一方是由 TI、恩智浦、瑞萨等传统芯片厂商所把持。
一方由英伟达以及背靠英特尔的 Mobileye 领衔,高通、华为、地平线紧随其上,展现了强劲的赶超之势。
而在智能汽车竞争最激烈的在中国市场:以华为、地平线、黑芝麻、芯驰科技、寒武纪等国产芯片公司也展现出了较强竞争力。
以特斯拉、蔚来、小鹏为代表的车企,也先后开启自研自动驾驶芯片的征程。
从车企对智能驾驶芯片的选择看,新势力更多选择英伟达,而传统车企则通过选择多种芯片进行多层次的布局。
以蔚来、理想、极氪为代表的新势力,在第一代车型上选择使用 Mobileye 芯片实现基础的智能驾驶功能后,开始转为全栈自研,并锁定大算力的英伟达 Orin 芯片。
而部分传统车企,由于车型众多,在目前的 ADAS 方案中,则会以 Mobileye 为主,同时布局实现行泊一体功能的 TI TDA4 以及地平线的 J2/J3 方案,以及更大算力的英伟达 Orin。
可以说,当前自动驾驶芯片行业的寡头格局尚未形成,市场格局依然有待重塑。
更加值得期待的是,在大算力芯片预研上,国内头部玩家与 Mobileye、英伟达、高通这样的巨头并没有拉开太大的差距。
在这场与智能汽车产业同步迭代的大演进中,跑出了万亿市值的电池巨头宁德时代。而在国产自主替代的大背景下,中国的自动驾驶芯片公司也有机会上位,成为下一个「宁王」。

 2000TOPS,英伟达发布史上最强算力芯片,一颗超Orin与8155之和!

新的最强算力车载芯片来了!算力高达2000 TOPS

今天,黄仁勋在GTC 2022的主旨演讲上正式宣布,英伟达将于2024年推出最新一代NVIDIA DRIVE SoC Thor,直接代替了原计划于2024年量产的Atlan。

 

 

 Atlan算力为1000TOPS,已经是目前市场之最,而Thor则是直接将算力拉到了2000 TOPS,同时,浮点算力也达到2000 TFLOPS。更让人惊叹的是,Thor既可以将其2000 TOPS和2000 FLOPS的算力全部用于自动驾驶工作流,也可配置为将一部分用于座舱AI和信息娱乐,一部分用于辅助驾驶。也就是说,Thor既可以用作单独的自动驾驶芯片,也可以用作驾舱融合芯片,同时满足自动驾驶和智能座舱所需的算力。

 

目前已经实现量产的自动驾驶和智能座舱芯片中性能最强大的分别是英伟达Orin和高通8155,前者算力256 TOPS,后者算力8 TOPS,浮点算力1000 GFLOPS,相当于英伟达用Thor一颗芯片就同时干掉了自家的Orin和高通的8155。

在如此参数配置下,英伟达将其命名为雷神亦是实至名归。
01.最强算力芯片是如何炼成的?

 

 

 据黄仁勋介绍,Thor之所以能实现如此高算力,主要得益于其整体架构中的Hopper GPU、Next-Gen GPU Ada Lovelace和Grace CPU。Hopper拥有令人惊叹的Transformer引擎和Vision Transformer的快速变革,而Ada中的多实例GPU的发明将有助于车载计算资源的集中化,可将成本降低数百美元。Grace 的CPU拥有出色的单线程性能,正好可以填补GPU的空缺。黄仁勋表示,目前,汽车的泊车、主动安全、驾驶员监控、摄像头镜像、集群和信息娱乐均由不同的计算设备控制。而未来,这些功能将不再由单独的计算设备控制,而是由在Thor上运行的,并随时间推移不断改进的软件所提供。对未来汽车来说,仅凭Thor一颗芯片,就能集中众多计算资源,不仅降低成本和功耗,同时还可实现功能的飞跃。而且,Thor的多计算域互相隔离,允许并发的、对时间敏感的多进程无中断运行,在一台计算机上可同时运行Linux、QNX和Android

 

 从发布会前的交流来看,目前已经宣布使用Thor的主要为国内车企。其中,极氪是最早宣布定点的,预计2025年将实现上车。此外,小鹏与自动驾驶公司轻舟智航获得英伟达创新奖。根据描述,从目前来看,主机厂应该会将Thor SoC用作驾舱融合芯片,而科技公司则更可能将所有算力都用作自动驾驶。按照此前业界对L4级自动驾驶算力需求的估计,Thor的算力应该已经能够完美胜任。不过,当被问及何时能真正实现自动驾驶落地时,英伟达方面表示这取决于主机厂。而从市场表现来看,英伟达表示中国市场表现喜人。此前,英伟达的Orin就已经被40多家汽车、卡车和Robotaxi等公司使用。相信Thor应该也会有不错的表现。

AI助力提高仿真模拟能力

此外,演讲中,黄仁勋还介绍了NVIDIA DRIVE平台上的部分新功能。NVIDIA DRIVE是英伟达专为自动驾驶汽车开发的一系列产品,涵盖从汽车到数据中心的方方面面。为全栈端到端平台,并对开发者开放,既可选择使用整个平台,也可使用其中的一部分。这次黄仁勋主要讲解的是用于模拟的DRIVE Sim。首先是名为Neural Reconstruction Engine的AI工作流,目前已经成为DRIVE Sim的一项主要功能。由于创建模拟场景耗时费力,而且难以扩展,因此研究人员开发了一个AI工作流,可根据记录的传感器数据构建3D场景。在将3D场景导入DRIVE Sim后,可通过人工创建的内容或AI生成的内容对其进行增强。只需几分钟,Neural Reconstruction Engine就可以根据传感器数据为驾驶记录重建完整的3D数字孪生。通过AI技术,还可以对物体进行采集和重建,根据现实世界的驾驶数据创建大型素材和场景库。而重建的场景和素材会被加载到Omniverse中,并且随时可在Drive Sim中使用。Omniverse是英伟达在2019年正式发布的一个计算机图形与仿真模拟平台。

 

 借助NVIDIA DRIVE Map,开发人员还可以在仿真场景中放置动态物体,例如车辆,以及行人。此时,录制的数据就可以转换为能自主反应且可修改的仿真环境进行闭环测试。而且,研发人员还可以利用合成和采集的场景和素材创作新场景,生成真值数据来训练感知网络。另外,DRIVE Sim一项重要功能是硬件在环,也就是说,AI工厂中可以运行整个车载软件栈。黄仁勋多次强调,构建机器人计算设备需要两类计算资源:一类是位于数据中心的AI工厂,主要用于数据处理、训练AI模型、数字孪生模拟以及绘制世界地图;另一类是汽车内的AI计算设备,通过处理传感器数据以感知环境,躲避障碍物,以及驾驶汽车前往目的地。运行中的AI车载计算机是不知道它在模拟环境中的,事实上它既不在车内,也不在道路上行驶。此外,支持硬件在环的DRIVE Sim还可以模拟车内环境。未来汽车内将有数字设计和物理设计相结合的环绕显示屏,汽车设计师、软件工程师和电子工程师可以在DRIVE Sim中展开合作,同时运行所有的实际计算机和软件栈。DRIVE Sim将成为他们的虚拟设计工作室。

 

 目前,英伟达正在扩展NVIDIA DRIVE Sim平台,凭借完整的硬件在环支持,创建汽车内部的数字孪生。NVIDIA Omniverse平台将这一切融合在一起,设计师和工程师可以并肩工作,在造就真正的汽车之前就完美集成物理设计与数字接口。DRIVE Sim基于Omniverse构建,其应用将有效加快新型AI座舱和信息娱乐系统的开发,并通过在未来汽车的数字孪生中测试这些系统来提高可用性。此外,黄仁勋还展示了英伟达在开发DRIVE端到端自动驾驶系统方面的进展。一段自动驾驶演示视频显示,从出发到目的地,车辆可实现完全自动驾驶,无需人为干预。而在驾驶过程中,系统可实现包括行人识别,机器学习多摄像头融合,预估其他车辆行为,实时硬件在环,提取地图特征,自动3D场景生成,3D场景增强,实时雷达模拟,实时多传感器模拟等功能。此外,英伟达还推出了Omniverse Cloud,将其用于车辆设计等场景。03.2000TOPS有必要吗?

 

 

 

 在自动驾驶芯片方面,即便在Thor发布之前,英伟达也占据着市场绝对的主导权。不过,近年包括高通以及地平线、黑芝麻等国内芯片厂商也在发力自动驾驶,对英伟达来说,应该也是不小的压力。而此前芯驰科技副总裁陈蜀杰在接受采访时曾表示,虽然众多车企和自动驾驶公司采用英伟达Orin芯片解决方案,但由于其成本较高,包括车型和自动驾驶公司的出货量可能并不会很大。因而Orin很可能是叫好但并不叫座的产品。在英伟达媒体交流会上,也有质疑的声音认为,目前的车辆真的有必要用到2000 TOPS的算力吗?英伟达方面则表示Thor适用于从L2+级别的辅助驾驶系统到L5级自动驾驶系统的算力需求。而当被问及对高通、地平线和黑芝麻等公司的芯片产品时,英伟达方面表示不对其他公司发表评价。

最强AI算力平台到底强在哪儿?

从互联网、智能硬件到行业应用系统,计算正在成为数字化的能量之环和核心推动力,各类应用场景对算力的需求每年成倍增加,尤其进入5G时代,新增数据类型80%以上都是图片、视频、文本与语音等非结构化数据,对这些数据处理需要更高的算力。

为了探寻昇腾芯片以及Atlas系列产品在AI类应用的加速作用,探究最强AI算力平台究竟“强”在哪儿?E企研究院针对训练场景,实测Atlas 800训练服务器,体验到超乎想象的性能。

实测前重点:

选择主流模型

AI的实现包括两个核心环节:训练(Training)和推理(Inference)。根据承担任务的不同,训练场景中要通过大数据训练出一个复杂的神经网络模型,即用大量标记过的数据来“训练”相应的系统,使之可以适应特定的功能,这意味着,训练需要极高的计算性能、较高的精度、能处理海量的数据,还要有一定的通用性,以便完成各种各样的学习任务。

因此,实测Atlas 800服务器的具体性能之前,需要选取目前业界主流的训练模型,从AI2的ELMo,到OpenAI的fine-tune transformer,再到BERT,在这些预训练的语言模型中进行初步筛选。
1选择AI领域最主流、最强大的训练模型
在人工智能领域,对于自然语言处理(Natural Language Processing 以下简称“NLP”)的研究也是充满魅力和挑战的,目前NLP领域最主流的训练模型是Google Research提出的BERT(来自Transformers的双向编码表示,Bidirectional Encoder Representations from Transformers的缩写)模型,作为一种新型的语言模型,BERT推出后就横扫包括语言问答、理解、预测等各项NLP指标的桂冠。
除了在模型结构和训练目标上的创新,BERT的成功还来自于模型的体量以及训练的数据量,BERT预训练模型有BERT-Base和BERT-Large之分,主要是训练参数的数量不同,比如BERT-Base总计约1.1亿个参数,而BERT-Large则有3.4亿个参数。

 

 算法/模型的突破离不开数据,但更离不开算力,BERT预处理模型功能需要建立在极强的计算力基础之上,训练的代价是不菲的。

由于公认通用处理器并不适合支撑AI训练场景,除有实力自己研发AI专用芯片的互联网巨头外(比如谷歌用了16个自己的TPU集群来训练BERT-Large模型),行业内广泛使用GPU为AI训练应用提供算力,诸多提供AI解决方案的公司利用BERT训练模型来展现其性能。
在实测前,E企研究院就选取了NLP领域的主流模型:BERT预处理模型。
2选配置,搭平台
E企研究院根据业内某主流AI供应商公开的硬件配置,选择一个与Atlas 800服务器配置相似的GPU服务器性能结果作为参照组,来验证运行相同BERT-Large模型时的性能。
在GitHub官网上,可以看到某AI供应商用8张GPU卡运行BERT-Large预训练模型,其结果与代码公布均在GitHub上(点击查看链接:https://github.com/NVIDIA/DeepLearningExamples/tree/master/TensorFlow/LanguageModeling/BERT )。
E企研究院验证的单台华为Atlas 800训练服务器内正好配备了8张昇腾910扣卡,提供AI算力的芯片数量也相同,工程师在下载此AI供应商发布在Github上的BERT-Large模型代码后,移植到Atlas 800训练服务器上,来验证Atlas 800训练服务器在进行BERT-Large模型的性能。
3构建模型超参 快速部署
超参数,是除了算法内部本身参数以外,其他需要设置的外围参数统称。E企研究院工程师除了保证其可正常运行在Atlas 800训练服务器上的必要代码修改之外,不做其他超参变动,以此来评估在近似相同条件下,Atlas 800训练服务器在运行BERT-Large预训练模型时所发挥的性能。
图注:在华为网站昇腾开发者社区的ModelZoo中,提供如何将基于TensorFlow框架的BERT模型转换到Atlas平台上的方法
此次工程师测试使用的是BERT-Large模型,本质上与BERT-Base是同一个模型,只是训练时的层数不一样(前者24层,后者12层)。
从TensorFlow转换到昇腾平台运行的过程非常简单,只需三步即可。

第一步:将指定训练用的数据集转换为tfrecord格式, 这次工程师测试使用的是维基百科英文版(这是Google论文中的举例,也是某AI供应商使用的数据集,其测试结果可在GitHub官网中可查);

第二步:更改环境变量,将提供算力的硬件改为昇腾910芯片;

第三步,指定单卡/多卡进行训练任务,工程师采用Atlas 800训练服务器,指定8卡进行训练。

25小时持续训练结果:

性能领先业界3倍以上
一切准备就绪后,工程师们开始BERT-Large模型训练,训练时间大约持续了25小时左右。在训练过程中,通过命令行方式可以获取实时训练进度,每30秒更新一次,以此评估Atlas 800训练服务器的性能,具体如下图所示:

 

 图注:Atlas800训练服务器正常运行BERT-Large模型24小时之后,进度大约在27万步前后,工程师通过命令行获取其运行日志,并进行截图,红框中即为体现算力性能的训练表现。

从上图显示的数值进行平均计算,每一步(Step)的吞吐量约为2605,输出数值表现也非常稳定,是采用某AI供应商所使用GPU训练成绩的3倍以上。
同时从这家AI供应商在其官网中公布的性能来看,在序列长度(Sequence Length)为128、批处理(Batch size)超过64时,其解决方案就会因为内存不足导致结果不可用,而Atlas 800训练服务器则无此情况,其批处理甚至可以达到96,从上图也可以看出,批处理数量越高,在进行BERT训练时的性能越好。
解构Atlas 800训练服务器:

高性能背后的奥秘

在实测中,Atlas 800训练服务器发挥出了超乎我们想象的性能,高性能背后的硬件平台是怎样的呢?经过体验后,E企研究院得出以下结论:
1创新架构新高度
Atlas 800训练服务器采用4U标准设计,内部分为上下两层,上层主要是CPU及其主板,下层是8个扣卡(Mezzanine)式的昇腾910处理器及其主板。

 

 图注:Atlas 800训练服务器内部,从上层的四路布局,可以看出是使用鲲鹏920处理器的9000型,因为采用Intel处理器的型号(9010)为双路配置。使用鲲鹏920处理器的一大优势在于支持PCIe 4.0通道,能够更充分的发挥出昇腾910芯片的性能,而Intel平台则要到2021年推出的下一代处理器才能支持

 

 

 

 图注:Atlas800训练服务器内部的下层设计,8个金属散热片下面是8个扣卡式昇腾910处理器;图中的线缆主要用于连接上层的CPU,这也使得Atlas 800训练服务器有一种粗犷的暴力美

之所以说扣卡式的昇腾910在训练场景中所能发挥的性能更高,原因在于,昇腾910芯片一共有三种高速接口,即PCIe 4.0通道、支持RoCE v2的100GbE、以及HCCS(Huawei Cache Coherent System,华为缓存一致性系统)高速互连。PCIe 4.0用于与CPU连接,100GbE用于集群组网,带宽最高的HCCS则用于昇腾910芯片间互连。
以上图为例,Atlas 800训练服务器内部下层的8颗昇腾910芯片分为两组并列,每组4颗,组内4颗昇腾910芯片使用HCCS互连,两组之间再使用PCIe 4.0互连;由于HCCS的存在,即使使用相同数量的昇腾910芯片,Atlas 800训练服务器的性能要高于相同数量的Atlas 300T中心训练卡组网。

 

 图注:三种互连技术的作用范围

单颗昇腾910芯片TDP可达350W,Atlas 800训练服务器内一共部署了8颗,再加上CPU及其他配套周边,整台服务器的功耗高达5.6KW,当然性能也非常出众,单台Atlas 800训练服务器最高可提供2.56 TFLOPS的AI算力。
同时,Atlas800训练服务器也需要强大的散热能力,Atlas 800训练服务器支持风冷和液冷(其实是风液混合散热,即通过冷板式液冷将昇腾910处理器发出的热量带走)两种散热方式,这可以根据数据中心条件进行选择。
比如E企研究眼体验的这台Atlas 800训练服务器就采用风冷散热的方式。

 

 图注:Atlas800训练服务器,前面几乎被8组硕大的对旋风扇占满,其中5组都位于下层,为8个昇腾910芯片吹风。右下角的“Model9000”表示其内采用的是(4路)鲲鹏920处理器+(8颗)昇腾910芯片。如果是英特尔平台的处理器,那型号就是9010)

以上是Atlas 800训练服务器系的性能实测及创新架构解析,华为Atlas服务器在AI应用中表现出的强大算力,将成为千行百业从数字化向智能化转型的新动能。

通用计算的性能增长乏力,人工智能对算力的需求却越来越高。于是,FPGA、GPU以及NPU等新计算组件纷纷加入战阵,从通用计算转向异构计算。华为基于昇腾芯片的训练与推理类服务器,形成覆盖端边云全栈全场景的产品与解决方案,对AI类应用带来强劲的性能提升。

云豹智能与燧原科技联合开发大规模高性能AI算力平台

 云豹智能与燧原科技达成战略合作,依托双方各自在DPU (Data Processing Unit)和AI计算领域的软硬件优势,联合开发大规模高性能AI算力平台,为云端AI计算提供更高效的解决方案。

云豹智能创始人兼CEO 萧启阳博士表示:

“在数据中心领域,DPU正推动着计算基础架构的变革,以提供更高效的数据处理和计算解决方案。DPU与AI加速设备更高效地互通互动,推动AI应用的发展,让AI计算更高效、更节能,这是我们推出DataDirectPath的出发点。我们相信DataDirectPath相关的技术必将为数据中心计算资源池化提供重要的基础。我们很高兴与业界AI算力领域领先者燧原科技合作,共同为业界提供创新的DataDirectPath解决方案,为客户提供更先进的AI解决方案“。

燧原科技创始人兼COO张亚林表示:

“数据中心和云计算是国家新基建的算力基础设施,是企业数字化转型的重要保障。在智能数据中心的核心业务中,海量数据和计算能力已成为核心关键。基于云豹智能和燧原科技在数据处理和算力产品的领先优势,将进一步促进数据中心的变革。通过创新性的DataDirectPath技术实现AI处理器之间以及AI处理器与存储之间的直接通信,对于提升AI计算规模和训练效率至关重要。我们很高兴与DPU头部厂商云豹智能一起,为业界带来领先的大规模高性能AI算力平台“。

AI算力云化是未来AI发展的趋势之一,高性能数据处理能力变得尤其重要

据艾瑞预测,2020年,中国人工智能基础设施市场规模为497亿元,为人工智能产业总规模的33%,总体呈现持续增长的走势,到2025年,中国人工智能基础设施市场规模将达到2475亿元。

算力作为人工智能产业发展的三大要素之一,AI芯片是其载体。AI芯片作为人工智能产业的关键硬件,是AI加速服务器中用于AI训练与推理的核心计算引擎,被广泛应用于人工智能、云计算、数据中心、边缘计算、移动终端等领域。当前,我国的AI芯片行业仍处于起步阶段,市场空间有待探索与开拓。据艾瑞统计与预测,2020年我国AI芯片市场规模为197亿元,到2025年,我国AI芯片市场规模将达到1385亿元,2021-2025年的相关CAGR达47%,市场整体增速较快。

但对于很多企业来说,独立建设自己的AI硬件集群一次性投入和后续运维的成本非常高,建设周期长且利用率低。而AI算力云化,以按需分配的方式提供AI算力,提高效能的同时,也可以降低成本。因此,AI算力云化是未来AI发展的趋势之一。

AI算力云化不仅需要高性能的AI计算能力,也需要高性能的数据处理能力,包括AI芯片之间的数据通信,AI芯片获取存储数据等。随着AI数据爆发式增长,模型迭代速度更快,模型规模越来越大,数据处理能力的要求也越来越高。

AI芯片厂商、GPU厂商、AI算法开发商都在不断探索硬件和软件的解决方案。主流的GPU或AI芯片厂商提供自己私有的解决方案,比如NVIDIA的NVLink、GPUDirect和相应NCCL软件,但AI市场和用户期待着一个开放的技术和相应高性能解决方案。

云豹智能与燧原科技联合推出大规模高性能AI算力平台解决方案

云豹智能作为DPU芯片的领导者,正在积极地帮助业界解决问题。随着数据中心基础架构逐渐演进到以DPU为核心,DPU将决定数据中心的互联互通方式。通过DataDirectPath(数据直通技术),DPU将为AI大规模训练提供一个更高效的通信方式。

目前,云豹智能与燧原科技达成战略合作,共同研发和提供大规模高性能AI算力平台解决方案。双方创新性地提出了DataDirectPath技术: 该技术用于高性能分布式数据通信,基于DPU的高灵活性和高性能的特点,实现与云燧T20之间以及与存储之间的高性能直接通信,提升AI训练效率的同时,也降低了训练成本。DataDirectPath包括:DataDirectPath RDMA和DataDirectPath Storage。DataDirectPath RDMA用于AI加速芯片之间的数据通信,而DataDirectPath Storage用于AI加速芯片与存储器之间的高速数据读写。

相对于一些GPU厂商推出的私有解决方案,DataDirectPath具有开放性、高兼容性和高灵活性等特点。

 

云豹智能与燧原科技合作,基于云豹云霄DPU和燧原科技云燧T20率先推出了DataDirectPath Storage解决方案,为AI训练储存访问提供更高效的解决方案。在传统解决方案中,云燧T20访问存储时,需要将数据先搬移到系统内存,再由系统内存搬移到目标设备。在创新的DataDirectPath Storage解决方案中,基于DataDirectPath Storage技术,云燧T20通过DPU直接获得数据,从而绕过系统内存和CPU,让数据访问速度更快,访问延迟更短,系统开销更小。DataDirectPath Storage不仅支持数据通道的Bypass CPU, 也支持控制通道的Bypass CPU,让控制路径也更高效,大大降低CPU的开销。

DataDirectPath Storage解决方案具有以下优势:

高性能、低延迟、低开销

DataDirectPath Storage同时支持数据通道和控制通道Bypass CPU,降低CPU开销、提高AI加速芯片访问性能并降低通信时延,从而帮助用户构建更大规模、更高性价比和更高能效的AI计算平台。

更高兼容性

用户端文件系统与后端实现解耦,通过DPU兼容多种存储系统和协议。

互联方案更灵活

DPU和AI加速芯片通信支持多种协议,包括Virtio、RDMA和NVMe等,从而支持更灵活的互联方案。

云豹智能和燧原科技将基于双方技术优势和技术互补,持续发挥协同作用,为云端AI计算降本增效,为行业提供更具创新力和价值的应用解决方案,为国内芯片行业发展进一步夯实大规模落地基础。

关于燧原科技

燧原科技专注人工智能领域云端算力平台,致力为人工智能产业发展提供普惠的基础设施解决方案,提供自主知识产权的高算力、高能效比、可编程的通用人工智能训练和推理产品。其创新性架构、互联方案和分布式计算及编程平台,可广泛应用于云数据中心、超算中心、互联网、金融及智慧城市等多个人工智能场景。

关于云豹智能

云豹智能是一家专注于云计算和数据中心数据处理器芯片(DPU)和解决方案的领先半导体公司。由原RMI公司 (后被Netlogic / Broadcom收购) co-founder Sunny Siu 萧启阳博士联合业界精英创立。核心团队来自Broadcom、Intel、Arm、华为海思、阿里巴巴等,拥有中国最有经验的DPU芯片和软件研发团队。旨在成为引领数据中心和云计算最前沿技术,并建立“软件定义芯片”行业标准的高科技公司。

 

 

参考文献链接

https://mp.weixin.qq.com/s/oi14v83S_0iUBY31xqvjPQ

https://mp.weixin.qq.com/s/HkfgdaVJoaX7N_3IXGXwLA

https://mp.weixin.qq.com/s/ZKC9ahMAPx790cexomzTcQ

https://mp.weixin.qq.com/s/Qy_7rug50odJZyTK5S001w

 

标签:伟达,训练,芯片,驾驶,AI,大算力,算力,2000TOPS
From: https://www.cnblogs.com/wujianming-110117/p/16721428.html

相关文章