CXL
rust
SP3 服务器设计 主板设计规格
chiplets 架构
大芯片 Monolithic 架构 CPU增长,会有性能瓶颈,
多片封装架构,采用四个晶圆
3D 堆叠技术
32MB-》96MB
主频 cyclye 周期的关系
AMD 3D chiplet 封装技术,让 三级缓存更大
CCD zhichi 8 个 core
GENOA-XBERGAMO 第四代
TURIN Dense
pcore ,ecore
CCD - CCX
EDA
成本:
Intel 设计+晶圆厂
AMD 设计+代工+封测(马来 苏州 通富微电封测),AMD 已经把晶圆厂卖掉了,谁先进用谁
AMD EPYC
行业现状:
最低内存延时 单晶元
算力、多晶圆(内存延时高)
罗马、米兰
SOC设计思路,没有南北桥,内存控制器,集中到IO带,
罗马、米兰(时钟不同步)
调优思路:
BIOS
内核
OS
NUMA
应用程序
目前我们用单路 也就是 单个CPU,性能耗时-》片之间的跳转,CCD之间跳转
set irq 网卡中断绑定
BIOS
为什么使用Auto?代表特定的值,例如CCD数量
SMT 打开超线程
todo 待办
CPU C-state 省电、节能(节能关闭) P-state 性能管理状态(要性能)
最大超频频率AMD == 睿频intel
NPS numa nodes per socket
ROMA,一个cpu,一个numa,一颗cpu每个象限作为一个节点,默认一个cpu一个节点
nps1 内存延迟高、8通道一起操作
nps4 一个numa node 内存延迟低,两个内存通道,
内存控制器,注重频率
TSME 内存加密技术
SEV docker 的内存加密
gcp 开启了这个加密
NBIO 北桥
IOMMU 虚拟化 地址转换
SMU 性能相关
Determinim slider 设置决定模式2
Auto
Power 电源模式,性能发挥到最大,
performance 性能决定模式 木桶原理,不同芯片之间性能一致 (docker 模式下推荐)
APBDIS(电源管理) io超频 uncore
动态调节频率,CPU内的延时增加
降低最高频率值的设置,可能不同的时刻 分配同一个
preferred IO IO优先处理的方式,百G 以内 set irq affnity lstop numa node 网卡,让网卡中断平均到多个核心上
每次轮训的时候,让他先走,网卡,磁盘这种
BUSID 填到这里
缺点,只能有一个网卡,保证这个网卡的优先级,两个网卡不可以
SSD是一组是一样的
ROMA Milan 内存带宽比较 349GB/s |
ROMA 不支持6内存通道,只支持 4/8 通道
Milan 支持6通道
Intel 是6内存通道
8+1D 64core
4+1D 32core
1D io带
llc / 32 几个ccd
内存延迟调优
两片150ns 调理之后 Intel90ns
内核 kernel
os
rust 内核 硬件 hardware err
照片:
docker 应用调优
os grub iommu=pt,nohz=off 一定要打开
os 查看电源管理
os 关闭C-stat,即禁止进入休眠状态(ms级别的)
hadoop network config
照片
避免CPU 片之间的切换
是否绑定核心
QOS lllc Roma的分配单位是ccx为单位
大数据方向,AMD很强,比Intel强
关于 软中断的点(我们也可以借用)
PCIE 通道多,AI训练
AI推理(AI-INFERENCE)
每个CPU下面挂在102个GPU和一个网卡,可以不使用PCIE-Swith,可以直连
NVIDIA GPU
chartGPT 用 微软的云进行测试,底层用的AMD定制化芯片
AMD支持Anolis
第一代 nps4
intel 需要大核心
AMD 需要小核心,组成大的核心
AMD功耗低,
单核整型及浮点算力
我国有自己的能耗标准,炭效白皮书
tecnet 60% AMD
标签:记录,性能,AMD,网卡,内存,CCD,CPU From: https://www.cnblogs.com/wangfancrazycity/p/17472879.html