https://zhuanlan.zhihu.com/p/675438893
今年8月,Mate60搭载的麒麟9000S归来,12月3日,笔记本L420搭载了麒麟9006C也已经上市;当年数据中心CPU领域叱咤风云的鲲鹏920,什么时候推出下一代?
2023年12月29日,华为云鲲鹏通用计算增强型实例kC2正式开启公测。官方产品鲲鹏920,我认为这就是930,后面会详细分解。这是继2019年华为云推出的首款鲲鹏实例kC1后,历经4年多的系统级优化和产品打磨,kC2实例在软、硬及软硬协同方面实现了全方位升级。
官方称谓鲲鹏920,本人推测这就是传闻已久的930,下文都称之为930;云上计算产品ECS叫kc2。参数对比分析如下:
kC1 | kC2 | 分析 | |
Name | 鲲鹏920 | 鲲鹏930 | 官方依然920 |
Core | 60 | 64*2 | KVM->NUMA架构+DPU |
Freq | 2.6G | 2.9G | 主频提升 |
Memory | 3200×8 | 5200×8 | 内存带宽1.6倍,带来30%性能收益 |
Perf | 100% | 130% | 应用场景提升30% |
Vector | NEON 128b | SVE 256b | 单核算力翻倍 |
DDR controller可以重新升级,从过去的2666->3200,再到今天的DDR5 5200MT,实现了内存带宽飞跃。
同时128core的核密度,来自2soket NUMA互联实现(本人分析);鲲鹏920首创了ARM领域NUMA互联先河;同样对比,Ampere的ARM芯片和Graviton2、倚天710都没有很好地解决NUMA互联问题。本次鲲鹏930用了HCCS实现两Socket高速互联、Cache一致性(920已经具备,云上产品未落)。
华为云上ECS产品kc1、kc2规格如下
规格名称 | 计算 | 网络 |
鲲鹏通用计算增强型kC2 | CPU/内存配比:1:2/1:4vCPU数量范围:2-128处理器:鲲鹏920基频:2.9GHz | 最大网络收发包:3200万PPS最大内网带宽:100Gbps |
鲲鹏通用计算增强型kC1 | CPU/内存配比:1:1/1:2/1:4vCPU数量范围:1-60处理器:鲲鹏920处理器基频:2.6GHz | 最大网络收发包:400万PPS最大内网带宽:30Gbps |
关于应用场景和性能提升,以下是官方发布信息,以及本人分析解读
华为云鲲鹏kC2实例具备三大核心优势:
l 性能升级
华为云从硬件、虚拟化、资源调度、Guest OS及应用软件等多个维度进行了40余项深度优化,在计算处理时延、内存性能、调度算法、应用编译等方面精心打磨,确保了kC2在云服务器性能上的卓越表现。在计算方面,综合计算性能优于业界同类产品25%,较kC1提升一倍。在网络方面,最大支持100G网络带宽,同时搭载RDMA网络,网络时延最低7us。在存储方面:软硬件结合,通过IO全路径优化,IO时延降低15%,IOPS性能提升60%。
【解读】比kc1提升一倍,Vector从过去的NEON 128bit提升到SVE256bit,HPC场景带来巨大收益。
l 安全升级
在支持国密算法基础上,安全特性再升级。提供VPC加密、存储加密、Enclave机密计算能力,从计算、网络、存储等多个维度为客户提供安全保障,同步支持vTPM特性,构筑客户虚拟机在启动过程的可信能力,保护系统完整性。此外,还支持虚拟化无感热升级能力,轻松实现系统安全漏洞快速修复。
【解读】主要收益来自擎天DPU,带宽更大,支持网络加密
l 高性价比
相对于X86架构实例,鲲鹏云服务器具备30%的价格优势。通用计算场景下,kC2较上一代产品性能提升近一倍,在典型场景应用加速的场景下,额外会带来30%以上的性能提升。
【解读】比kc1性能提升1倍,推测128c vs 64c收益;额外30%来自内存带宽60%收益;
华为云鲲鹏kC2在典型应用场景性能表现优异:Nginx部署基于华为云在Nginx场景下的系统级调优经验,kC2在网络链接密集型应用上加速效果明显:HTTP/HTTPS长链接性能将优于上一代实例160~200%,HTTP/HTTPS短链接性能较上一代实例分别提升150%及70%。
【解读】Nginx是网络密集应用,ARM很容易把网卡PPS规格打满,主要来自擎天DPU,3200万 vs 400万,整机8倍,per core4倍;因此Nginx比上一代提高200%;短连接的性能瓶颈完全是DPU能力
MySQL数据库得益于在鲲鹏算力上积累的大量MySQL数据库优化经验,华为云kC2实例在综合能力上表现出色,通过使能加速库及HCE OS上的性能调优,业务将得到130%的性能提升。
【解读】由于初代920从移动端修改到DC,架构设计不够彻底。乐高架构+环形Node;在Cache数据共享,锁处理方面的限制,数据库很难发挥优势。
根据三方评测,kc1 RDS-MySQL性能是x86的1/2,kc1是100%的话,x86(Icelake)大概200%,本次kc2性能达到kc1的230%倍;也就是超过x86 15%。
另外,MySQL消耗内存带宽比较大,本次MySQL性能收益一部分来自内存带宽1.6x提升;提升130%=2.3倍;其他收益来源不明确,难道修改了core互联架构、Cache架构?
高性能计算在高性能计算场景产品持续升级,一方面,kC2支持SVE指令加速,同时位宽扩展一倍,叠加数学库的加速能力,使得计算性能得到大幅度提升,在HPC Linpack场景下,性能优于上一代实例3倍。同时,kC2提供低时延RDMA网络,基于网络拓扑的亲和性调度,进一步将时延降到最低。另一方面,kC2基于定频物理核提供稳定的算力输出,将带给客户更加稳定的性能体验。编解码短视频/直播是当下最流行的应用之一,算力诉求日趋增大,其中X264/X265转码是最典型的应用场景。基于该场景,华为云在SVE虚拟化、BoostKit加速库、毕昇编译器等方面进行大量的优化,在X265和X264转码场景带来了130~150%的性能提升。四年磨一剑, kC2实例在极致性价比、高等级安全防护、系统级稳定性、生态迁移易用性等方面全维度升级,在后续鲲鹏云服务的产品演进过程中,将持续加强系统级软硬融合能力,为客户提供更优质的服务。
【解读】 kC2支持SVE指令加速,同时位宽扩展一倍;NEON128b升级到SVE256;结合主频、内存带宽提升,性能3倍差不多;
总结:
一,技术方面,鲲鹏技术升级:
1. 核数:本次kc2具备128core,应该是64c×2Numa实现,核密度没有提升
2. 主频:2.6Ghz升级到2.9Ghz,SOC供电做了优化;性能提升10%
3. 内存:DDR controller可以单独升级,获得内存带宽红利,提高到1.6倍;
4. NUMA最多可以支持4个,云上kc2采用了2路架构;kc1 KVM虚拟化,受到很多限制,kc1只推出60core产品。
二,鲲鹏产品和商业化
鲲鹏920发货量200万片(估),2020年,趁断供潮危机,攻入了大部分互联网大客户,这部分客户议价能力强,性能要求高;同时,随着Intel服务器的持续供应,以及XC市场的高利润诱惑,鲲鹏转向利基市场。
从核心密度,Cache容量未有明显提升可见,鲲鹏930应该与上一代相同,采用过插画7nm制程;发挥华为解决方案能力,从DPU、OS、编译器等多个方面进行了大幅度优化。在政府金融等自主可控领域,依然是竞争力佼佼者。为IT安全产业继续扮演主导角色。
三,通用算力的未来
国内ARM服务器整体来看,XC行业鲲鹏、飞腾为主;开放的商业化市场里面,服务器主要玩家有安培Ampere Altra/Max/One,云上的主要玩家是阿里云的倚天710。 根据三方评测,倚天性能在前面提到的数据库、大数据是比kc1要高1.5-2倍性能,kc2本次升,部分实现领先,多数场景级缩小了差距。
AWS V1架构的Graviton3 11月份在国内上线,V2架构的Gaviton4已经全球发布,微软ARM N2芯片今年Cobalt 100发布,Google 基于Poseidon核的ARM芯片已经在路上。此外,国内ARM平台字节跳动、外鸿钧微的芯片,24年也会看到;
如今制程红利不在,面对功耗墙瓶颈、低碳经济战略,ARM芯片必然成为未来趋势。巨头们已经厉兵秣马,严阵以待。大战来临的黎明静悄悄,技术革命浪潮涌来,你武装好了吗?
标签:鲲鹏,性能,转帖,华为,kC2,920,930,ARM From: https://www.cnblogs.com/jinanxiaolaohu/p/18169963