首页 > 其他分享 >CPU/GPU/FPGA芯片分析

CPU/GPU/FPGA芯片分析

时间:2023-01-30 04:00:09浏览次数:39  
标签:FPGA 龙芯 芯片 国产 GPU CPU

CPU/GPU/FPGA芯片分析 CPU 由于并行性的限制和操作系统的调度,做通信效率不高,延迟也不稳定。 
此外,通信就必然涉及到调度和仲裁,CPU 由于单核性能的局限和核间通信的低效,调度、仲裁性能受限,硬件则很适合做这种重复工作。因此我的博士研究把 FPGA 定义为通信的「大管家」,不管是服务器跟服务器之间的通信,虚拟机跟虚拟机之间的通信,进程跟进程之间的通信,CPU 跟存储设备之间的通信,都可以用 FPGA 来加速。 成也萧何,败也萧何。缺少指令同时是 FPGA 的优势和软肋。  每做一点不同的事情,就要占用一定的 FPGA 逻辑资源。如果要做的事情复杂、重复性不强,就会占用大量的逻辑资源,其中的大部分处于闲置状态。这时就不如用冯·诺依曼结构的处理器。  数据中心里的很多任务有很强的局部性和重复性:一部分是虚拟化平台需要做的网络和存储,这些都属于通信;另一部分是客户计算任务里的,比如机器学习、加密解密。 首先把 FPGA 用于它最擅长的通信,日后也许也会像 AWS 那样把 FPGA 作为计算加速卡租给客户。 不管通信还是机器学习、加密解密,算法都是很复杂的,如果试图用 FPGA 完全取代 CPU,势必会带来 FPGA 逻辑资源极大的浪费,也会提高 FPGA 程序的开发成本。更实用的做法是FPGA 和 CPU 协同工作,局部性和重复性强的归 FPGA,复杂的归 CPU。 当我们用 FPGA 加速了 Bing 搜索、深度学习等越来越多的服务;当网络虚拟化、存储虚拟化等基础组件的数据平面被 FPGA 把持;当 FPGA 组成的「数据中心加速平面」成为网络和服务器之间的天堑……似乎有种感觉,FPGA 将掌控全局,CPU 上的计算任务反而变得碎片化,受 FPGA 的驱使。以往我们是 CPU 为主,把重复的计算任务卸载(offload)到 FPGA 上;以后会不会变成 FPGA 为主,把复杂的计算任务卸载到 CPU 上呢?随着 Xeon + FPGA 的问世,古老的 SoC 会不会在数据中心焕发新生?  

 

 国产CPU 国产CPU处理器主要面向PC、服务器、嵌入式系统、手机和平板、安防监控、汽车,以及视频和多媒体处理等应用市场。AspenCore分析师团队汇总了16家国产CPU芯片厂商,其中包括:
  • PC/服务器CPU:北京龙芯、上海兆芯、电科申泰、天津飞腾和海光;
  • 基于Arm架构的服务器CPU:天津飞腾、华为海思的鲲鹏和阿里平头哥的倚天;
  • 手机AP:海思麒麟和紫光展锐虎贲;
  • 平板/多媒体和视频处理SoC:全志科技、瑞芯微、北京君正、晶晨半导体
  • 安防/视频处理SoC:国科微、中星微
  • 嵌入式CPU:苏州国芯
POWER架构CPU:合芯科技这16家国产CPU芯片公司中,有一半已经是上市公司,最新科创板上市的有龙芯中科与国芯科技,海光信息IPO也已获上交所受理。资本市场的支持将进一步推动国产CPU在信创、工业及信息安全应用领域的发展,也有助于CPU厂商提升研发技术实力,并建设和扩展各自的生态系统。 龙芯中科的龙芯系列CPU包括面向行业应用的“龙芯1号”小CPU、面向工控和终端类应用的“龙芯2号”中CPU,以及面向桌面与服务器类应用的“龙芯3号”大CPU。2021年龙芯中科发布了完全自主指令集架构--LoongArch,基于该架构的龙芯3A5000单核性能提升50%,功耗降低30%,与国内CPU产品相比在性能上优势明显。 基于开放的龙芯生态体系,该公司与板卡、整机厂商及基础软件、应用解决方案开发商建立起紧密的合作关系,为下游企业提供基于龙芯处理器的各类开发板及软硬件模块。龙芯中科可以提供32位、64位单核、多核和不同质量等级的处理器及配套芯片,搭载的Loongnix、LoongOS两大系统软件可以适应不同的应用场景。 苏州国芯科技基于自主可控的嵌入式CPU 技术,以及面向信息安全、汽车电子和工业控制、边缘计算和网络通信三大关键应用领域的芯片定制服务,设计开发出一系列自主芯片及模组产品。该公司基于M*Core、PowerPC和RISC V三大指令集,提供具有自主知识产权的8大系列40余款CPU核,其主要嵌入式CPU内核与Arm内核对比如下:  国产GPU 相对于国产CPU,国产GPU发展更晚,涉及GPU处理器研发的厂商也比较少,国产GPU的性能跟英伟达、AMD和英特尔等全球领先GPU芯片还相距甚远。然而,最近几年GPU在AI应用方面的独特优势,加上资本的追捧,带动了国产GPU的创业热潮。壁仞科技、瀚博半导体和摩尔线程等GPU/AI芯片初创公司融资高达数10亿元,吸引了英伟达和AMD等国际厂商技术人才的加盟,也将推动国产GPU这一高性能芯片细分市场的竞争和发展。 AspenCore分析师团队汇总了9家国产GPU芯片厂商,其中包括:
  • 图形处理/渲染GPU:景嘉微、芯动科技、芯瞳半导体、摩尔线程
  • 通用计算GPU:天数智芯、登临科技、摩尔线程、壁仞科技
  • AI加速GPU:天数智芯、瀚博半导体、壁仞科技、沐曦集成电路
这9家国产GPU厂商中,只有景嘉微是上市公司,芯动科技具有多年的定制芯片设计经验,其他公司都是初创型企业,但都获得了相当可观的风投融资(其中摩尔线程、壁仞科技和瀚博半导体的累积融资金额均超过20亿元)。 芯动科技于2021年底发布的“风华1号” GPU采用12nm 工艺,支持GDDR6 / GDDR6X(最大速率 19Gbps),容量可选 4GB / 8GB / 16GB,支持 HDMI2.1 / DP1.4 /VGA 多路独立输出,支持 X86、ARM、龙芯等指令集;支持 Linux、安卓、麒麟、统信UOS等操作系统;支持鲲鹏 / 安培等服务器平台。“风华1号”分为A型和B型两款,具体性能指标如下图。

 

 天数智芯的7nm通用并行(GPGPU)云端训练芯片BI于2020年12月成功 “点亮”。基于这种全自研通用计算GPGPU芯片,天数智芯的硬件产品聚焦于云端训练及推理,通过自研指令集释放强大的可编程性与应用通用性,提供业界领先的AI算力密度与能效比。它具有针对云端AI训练和HPC通用计算设计的软硬件架构;支持浮点、定点多种精度数据类型;提供超高带宽的本地存储和片间互联扩展。天数智芯可支持ResNet、Vgg、Inception、Alexnet、SSD、Mask R-CNN等通用计算机视觉相关网络模型;提供生态兼容的软件套件;支持多精度数据类型标准&混合训练,支持模型深度优化。 国产FPGA 最近赛灵思被AMD成功收购,这意味着FPGA难以成为一个有规模的独立市场,只能作为高性能计算领域的一种专用处理方式。然而,在5G、工业控制和专用细分应用领域,FPGA仍然有CPU/GPU/AI芯片无法替代的优势。国产FPGA厂商的整体技术实力跟英特尔和赛灵思等国际厂商还有相当的差距,但在中低性能的FPGA市场已经看到几家国产厂商的身影。 AspenCore分析师团队汇总了11家国产FPGA厂商,其中安路科技、紫光国微和复旦微电是上市公司,尽管FPGA业务在紫光国微和复旦微电的总营收中占比不是很大。除了传统FPGA外,还有一些厂商基于FPGA开发出特定应用的软硬件处理方案。比如,易灵思基于Quantum技术的FPGA对“功耗-性能-面积”(PPA)的优化高达4倍,其独特的设计架构可轻松扩展至百万以上逻辑单元(LE)密度,其车规级16nm FPGA针对新能源汽车中的自动驾驶、智能座舱和电气化应用。  

 

 联捷科技研发基于FPGA的数据中心图像视频等多媒体异构计算解决方案,可将性能和效能提升一个数量级,已获得美国及中国专利。联捷科技高吞吐、低时延的FPGA图像处理加速技术解决方案目前已经广泛应用于智能手机云应用、云存储和在线视频网站等市场。 最近在科创板上市的安路科技在FPGA芯片架构方面,已经开发出支持高达600K 逻辑阵列容量的PHOENIX 第一代FPGA 架构,现正开发支持1KK 以上级别逻辑容量、具有良好阵列扩展性的PHOENIX2 第二代FPGA 架构。在系统集成方面,该公司在第一代小容量FPSoC 芯片基础上,将从低功耗和高性能两个方向布局下一代FPSoC 芯片,集成CPU、FPGA和专用数据处理模块,以满足未来应用市场趋势。 在专用EDA 软件方面,安路科技的TangDynasty (TD) 软件是自主开发的FPGA集成开发环境,支持工业界标准的设计输入,包含完整的电路优化流程以及丰富的分析与调试工具,并提供良好的第三方设计验证工具接口,为所有基于安路科技FPGA产品的应用设计提供有力支持。此外,安路科技还将针对PHOENIX2 架构升级软件核心算法,面向FPSoC 芯片开发系统级软件编译工具,有效支持硬件产品的丰富产品线。

 

 35家国产处理器芯片厂商详细信息




  参考文献了解 https://mp.weixin.qq.com/s/DoMnVBGprshtZ7jg_9dEmA https://mp.weixin.qq.com/s/IPOWu66Fvy2hmp7YKQtpAg

标签:FPGA,龙芯,芯片,国产,GPU,CPU
From: https://www.cnblogs.com/wujianming-110117/p/17074215.html

相关文章

  • python 实现app性能测试(cpu、内存占用情况)
    一、获取appcpu占用情况1、实现代码importos,csvimporttimeimportnumpyasnpfrommatplotlibimportpyplotaspltfromcheck_packageimportcheck_package......
  • yolov5 提速多GPU训练显存低的问题
    修改前:按照配置,在train.py配置如下:运行pythontrain.py后nvidia-smi显示显存占用如下:修改后参考yolov5官方中的issue中,有人提到的分布式多进程的方法:在yolov5运行......
  • ⑩.linux查看各进程占用cpu/内存情况
    1.ps,top命令1.1ps命令1.2top命令2.排序进程2.1复杂方法2.2简单方法1.ps,top命令ps和top命令常用来查看Linux系统进程相关信息。ps命令:可以查看进程的......
  • 解决.NET Runtime Optimization Service(mscorsvw.exe)进程占用CPU过高的问题
    在使用server系统时偶然发现系统运行速度缓慢,任务管理器检查发现一个名为.NETRuntimeOptimizationService的进程正在疯狂的占用CPU。谷歌了一下发现这个进程是在系统安......
  • cpufreq之ACPI CPPC
    Overview参见ACPISPEC章节:8.4.7CollaborativeProcessorPerformanceControlCPPC(CollaborativeProcessorPerformanceControl)是ACPI规范中定义的一套机制,让O......
  • 什么是CPU密集型、IO密集型?
    CPU密集型(CPU-bound)CPU密集型也叫计算密集型,指的是系统的硬盘、内存性能相对CPU要好很多,此时,系统运作大部分的状况是CPULoading100%,CPU要读/写I/O(硬盘/内存),I/O在很短......
  • CPU流水线竞争解决方案
    增加资源,通过添加指令缓存和数据缓存,让我们对于指令和数据的访问可以同时进行。帮助CPU解决取指令和访问数据之间的资源冲突。就像是在软件开发过程,发现效率不够,于是研发负......
  • MCU与GPU技术分析
    MCU与GPU技术分析车规MCU知识梳理一辆传统燃油车需要大约500到600颗芯片,轻混汽车大约需要1000颗,插电混动和纯电动汽车则需要至少2000颗芯片。这意味着,随着智能电动汽车的......
  • Pytorch(GPU)安装小结
    引:最近在学习神经网络的搭建与使用,需要安装Pytorch,但是在安装的过程中遇到了很多问题,在这里总计一下。1​.国内镜像源众所周知(手动狗头),Python的好多库是需要翻墙访问外网进......
  • 查看GPU使用情况和设置CUDA_VISIBLE_DEVICES
    文章目录​​一、简介​​​​二、查看GPU状态和信息​​​​三、使用​​​​3.1临时设置(临时设置方法一定要在第一次使用cuda之前进行设置)​​​​3.2python运行时设置......