首页 > 其他分享 >[转帖]华为鲲鹏930归来,ARM成为服务器趋势

[转帖]华为鲲鹏930归来,ARM成为服务器趋势

时间:2024-05-02 09:55:39浏览次数:20  
标签:鲲鹏 性能 转帖 华为 kC2 920 930 ARM

https://zhuanlan.zhihu.com/p/675438893

 

今年8月,Mate60搭载的麒麟9000S归来,12月3日,笔记本L420搭载了麒麟9006C也已经上市;当年数据中心CPU领域叱咤风云的鲲鹏920,什么时候推出下一代?

2023年12月29日,华为云鲲鹏通用计算增强型实例kC2正式开启公测。官方产品鲲鹏920,我认为这就是930,后面会详细分解。这是继2019年华为云推出的首款鲲鹏实例kC1后,历经4年多的系统级优化和产品打磨,kC2实例在软、硬及软硬协同方面实现了全方位升级。

官方称谓鲲鹏920,本人推测这就是传闻已久的930,下文都称之为930;云上计算产品ECS叫kc2。参数对比分析如下:

  kC1 kC2 分析
Name 鲲鹏920 鲲鹏930 官方依然920
Core 60 64*2 KVM->NUMA架构+DPU
Freq 2.6G 2.9G 主频提升
Memory 3200×8 5200×8 内存带宽1.6倍,带来30%性能收益
Perf 100% 130% 应用场景提升30%
Vector NEON 128b SVE 256b 单核算力翻倍

DDR controller可以重新升级,从过去的2666->3200,再到今天的DDR5 5200MT,实现了内存带宽飞跃。

同时128core的核密度,来自2soket NUMA互联实现(本人分析);鲲鹏920首创了ARM领域NUMA互联先河;同样对比,Ampere的ARM芯片和Graviton2、倚天710都没有很好地解决NUMA互联问题。本次鲲鹏930用了HCCS实现两Socket高速互联、Cache一致性(920已经具备,云上产品未落)。

 

华为云上ECS产品kc1、kc2规格如下

规格名称 计算 网络
鲲鹏通用计算增强型kC2 CPU/内存配比:1:2/1:4vCPU数量范围:2-128处理器:鲲鹏920基频:2.9GHz 最大网络收发包:3200万PPS最大内网带宽:100Gbps
鲲鹏通用计算增强型kC1 CPU/内存配比:1:1/1:2/1:4vCPU数量范围:1-60处理器:鲲鹏920处理器基频:2.6GHz 最大网络收发包:400万PPS最大内网带宽:30Gbps

关于应用场景和性能提升,以下是官方发布信息,以及本人分析解读

华为云鲲鹏kC2实例具备三大核心优势:

l 性能升级

华为云从硬件、虚拟化、资源调度、Guest OS及应用软件等多个维度进行了40余项深度优化,在计算处理时延、内存性能、调度算法、应用编译等方面精心打磨,确保了kC2在云服务器性能上的卓越表现。在计算方面,综合计算性能优于业界同类产品25%,较kC1提升一倍。在网络方面,最大支持100G网络带宽,同时搭载RDMA网络,网络时延最低7us。在存储方面:软硬件结合,通过IO全路径优化,IO时延降低15%,IOPS性能提升60%。

【解读】比kc1提升一倍,Vector从过去的NEON 128bit提升到SVE256bit,HPC场景带来巨大收益。

l 安全升级

在支持国密算法基础上,安全特性再升级。提供VPC加密、存储加密、Enclave机密计算能力,从计算、网络、存储等多个维度为客户提供安全保障,同步支持vTPM特性,构筑客户虚拟机在启动过程的可信能力,保护系统完整性。此外,还支持虚拟化无感热升级能力,轻松实现系统安全漏洞快速修复。

【解读】主要收益来自擎天DPU,带宽更大,支持网络加密

l 高性价比

相对于X86架构实例,鲲鹏云服务器具备30%的价格优势。通用计算场景下,kC2较上一代产品性能提升近一倍,在典型场景应用加速的场景下,额外会带来30%以上的性能提升。

【解读】比kc1性能提升1倍,推测128​c vs 64c收益;​额外30%来自内存带宽60%收益;

华为云鲲鹏kC2在典型应用场景性能表现优异:Nginx部署基于华为云在Nginx场景下的系统级调优经验,kC2在网络链接密集型应用上加速效果明显:HTTP/HTTPS长链接性能将优于上一代实例160~200%,HTTP/HTTPS短链接性能较上一代实例分别提升150%及70%。

【解读】Nginx是网络密集应用,ARM很容易把网卡PPS规格打满,主要来自擎天DPU,3200万 vs 400万,整机8倍,per core4倍​;因此Nginx比上一代提高200%;短连接的性能瓶颈完全是DPU能力

MySQL数据库得益于在鲲鹏算力上积累的大量MySQL数据库优化经验,华为云kC2实例在综合能力上表现出色,通过使能加速库及HCE OS上的性能调优,业务将得到130%的性能提升。

【解读】由于初代920从移动端修改到DC,架构设计不够彻底。乐高架构+环形Node;在Cache数据共享,锁处理方面的限制,数据库很难发挥优势。

根据三方评测,kc1 RDS-MySQL性能是x86的1/2,kc1是100%的话,x86(Icelake)大概200%,本次kc2​性能达到kc1的230%倍;也就是超过x86 15%。

另外,MySQL消耗内存带宽比较大,本次MySQL性能收益一部分来自内存带宽1.6x提升;提升130%=2.3倍;其他收益来源不明确,难道修改了core互联架构、Cache架构?

高性能计算在高性能计算场景产品持续升级,一方面,kC2支持SVE指令加速,同时位宽扩展一倍,叠加数学库的加速能力,使得计算性能得到大幅度提升,在HPC Linpack场景下,性能优于上一代实例3倍。同时,kC2提供低时延RDMA网络,基于网络拓扑的亲和性调度,进一步将时延降到最低。另一方面,kC2基于定频物理核提供稳定的算力输出,将带给客户更加稳定的性能体验。编解码短视频/直播是当下最流行的应用之一,算力诉求日趋增大,其中X264/X265转码是最典型的应用场景。基于该场景,华为云在SVE虚拟化、BoostKit加速库、毕昇编译器等方面进行大量的优化,在X265和X264转码场景带来了130~150%的性能提升。四年磨一剑, kC2实例在极致性价比、高等级安全防护、系统级稳定性、生态迁移易用性等方面全维度升级,在后续鲲鹏云服务的产品演进过程中,将持续加强系统级软硬融合能力,为客户提供更优质的服务。

【解读】 kC2支持SVE指令加速,同时位宽扩展一倍;NEON128b升级到SVE256;结合主频、内存带宽提升,性能3倍差不多;

总结:

一,技术方面,鲲鹏技术升级:

1. 核数:本次kc2具备128core,应该是64c×2Numa实现,核密度没有提升

2. 主频:2.6Ghz升级到2.9Ghz,SOC供电做了优化;性能提升10%

3. 内存:DDR controller可以单独升级,获得内存带宽红利,提高到1.6倍;

4. NUMA最多可以支持4个,云上kc2采用了2路架构;kc1 KVM虚拟化,受到很多限制,kc1只推出60core产品。

二,鲲鹏产品和商业化

鲲鹏920发货量200万片(估),2020年,趁断供潮危机,攻入了大部分互联网大客户,这部分客户议价能力强,性能要求高;同时,随着Intel服务器的持续供应,以及XC市场的高利润诱惑,鲲鹏转向利基市场。

从核心密度,Cache容量未有明显提升可见,鲲鹏930应该与上一代相同,采用过插画7nm制程;发挥华为解决方案能力,从DPU、OS、编译器等多个方面进行了大幅度优化。在政府金融等自主可控领域,依然是竞争力佼佼者。为IT安全产业继续扮演主导角色。

三,通用算力的未来

国内ARM服务器整体来看,XC行业鲲鹏、飞腾为主;开放的商业化市场里面,服务器主要玩家有安培Ampere Altra/Max/One,云上的主要玩家是阿里云的倚天710。 根据三方评测,倚天性能在前面提到的数据库、大数据是比kc1要高1.5-2倍性能,kc2本次升,部分实现领先,多数场景级缩小了差距。

AWS V1架构的Graviton3 11月份在国内上线,V2架构的Gaviton4已经全球发布,微软ARM N2芯片今年Cobalt 100发布,Google 基于Poseidon核的ARM芯片已经在路上。此外,国内ARM平台字节跳动、外鸿钧微的芯片,24年也会看到;

如今制程红利不在,面对功耗墙瓶颈、低碳经济战略,ARM芯片必然成为未来趋势。巨头们已经厉兵秣马,严阵以待。大战来临的黎明静悄悄,技术革命浪潮涌来,你武装好了吗?

标签:鲲鹏,性能,转帖,华为,kC2,920,930,ARM
From: https://www.cnblogs.com/jinanxiaolaohu/p/18169963

相关文章

  • ArmSoM-Sige5 RK3576开发板 正式发布!
    ArmSoM-Sige5采用RockchipRK3576第二代8nm高性能AIOT平台,6TOPS算力NPU,最大可配32GB大内存。支持8K视频编解码,拥有丰富的接口,支持双千兆网口,WiFi6&BT5和多种视频输出。支持多种操作系统,适用于基于ARM的PC和边缘计算设备、个人移动互联网设备和其他数字多媒体应用。关键参数......
  • [2022DASCTF Apr X FATE 防疫挑战赛] warmup-java
    没错,还是java。我就跟java杠上了。分析先看依赖:没有啥特别的。审一下源码:IndexController.java:warmup路由下传参data,下面把十六进制转为字节直接反序列化了。看下动态代理MyInvocationHandler.java:看一下Utils的hexStringToBytes方法: 下面分析来自Java专题-简......
  • [转帖]WEB请求处理三:Servlet容器请求处理
    https://www.jianshu.com/p/571c474279af 0系列目录#WEB请求处理WEB请求处理一:浏览器请求发起处理WEB请求处理二:Nginx请求反向代理本篇文章将给大家讲述Servlet容器中请求处理的过程,在给本篇文章起标题时,一直在“应用服务器”与“Servlet容器”这两者之间......
  • HarmonyOS 自定义装饰器
    1.引言在软件工程中,日志记录是监控和调试应用程序的重要工具。鸿蒙操作系统(HarmonyOS)支持自定义装饰器,这使得开发者可以方便地向类的方法添加日志记录功能。本文将介绍两个用于记录方法执行的自定义装饰器:LogMethod和logDecorator。2.装饰器基础装饰器是一种特殊类型的声明......
  • Harmony在AbilitySlice之间导航
    实现了同一个PageAbility内部不同AbilitySlice之间的导航.首先新建一个AbilitySlice2,将其加入MainAblity:addActionRoute("my.action",AbilitySlice2.class.getName());在config.json中配置动作:"actions":["action.system.home",......
  • [转帖]cpupower
    cpupower命令–调整CPU主频参数/真正好用的Linux命令在线查询手册/:播放正确发音《Linux就该这么学》是一本基于最新Linux系统编写的入门必读书籍,内容面向零基础读者,由浅入深渐进式教学,销量保持国内第一,年销售量超过10万余本。点此免费在线阅读。cpupower命令的功能是调整CPU......
  • pycharm更换编辑器默认编码方式
    Pycharm运行py文件,出现SyntaxError:Non-UTF-8codestartingwith'\xb5'infileF:\桌面\python\tk_learning\01.pyonline7,butnoencodingdeclared;seehttps://python.org/dev/peps/pep-0263/fordetails错误这个错误通常意味着你的Python源代码文件中包含了非UTF......
  • pip成功安装gdal的whl文件后,PyCharm仍报错No module named ‘osgeo’
    在根据网上的教程,成功pipinstall对应的whl文件后,发现PyCharm仍然显示无法调用osgeo。出现这样的问题,首先关注自己使用的环境,例如我使用的环境是(见下图)但当我打算卸载gdal库后,发现gdal安装的环境地址和我使用的环境地址不同(如下图)啊,原来是安装gdal的环境地址搞错了,我自己使......
  • Pycharm
    如何换日间模式在PyCharm中切换日间模式(通常称为“亮色模式”或“白天模式”)与切换夜间模式(暗色模式)的步骤相似。以下是如何在PyCharm中进行此操作的步骤:导航到外观与行为设置:在设置或偏好设置的窗口中,找到并点击Editor->ColorScheme选择日间模式:在ColorScheme......
  • openharmony 多线程的方式有哪些?两个worker线程数据如何通讯、内存如何共享、与Java多
    OpenHarmony操作系统支持多种多线程并发处理策略,以提升应用的响应速度与帧率,以及防止耗时任务对主线程的干扰。以下是OpenHarmony中的多线程方式,以及Worker线程间的数据通讯和内存共享方法,还有它们与Java多线程的区别:OpenHarmony多线程方式Worker线程:OpenHarmony中的Worker是......