- 2024-10-30科普文:软件架构网络系列之【信创:SAN 交换机“卡脖子”,RoCE V2 成破局关键】
概叙目前,不少企业数据中心使用FC交换机和集中式SAN存储(以下简称“FC-SAN架构”),支持核心业务系统、数据库、AI/ML等高性能业务场景。科普文:软件架构Linux系列之【非信创方案VMAX250F:城商行核心存储系统升级改造和统一存储监控实现实践分享】李军华-CSDN博客而在开展IT
- 2024-05-27【学习】智算中心案例组网认知
智算中心网络延迟解决方案一、智算中心简介智算中心是一个集成高性能计算(HPC)、人工智能(AI)和大数据分析的综合平台,旨在提供强大的计算能力和数据处理能力,以支持各种复杂的计算任务和应用。二、网络延迟的重要性网络延迟是指数据从一个节点传输到另一个节点所需的时间。在
- 2024-04-16[RoCE] 通过QoS对Mellanox网卡进行限速
参考资料:QualityofService(QoS)-NVIDIADocs【RDMA】RoCE网络QoS|应用层设置PFC等级|Tos|Priority|TC_cma_roce_tos-CSDN博客【RDMA】mellonx流控配置工具mlnx_qos|PFC-CSDN博客前言目标:我有一个Mellanox-5网卡,我想用RoCE,同时对某些qp进行限速。然而,Mellanox-5网卡在Ro
- 2024-02-25RDMA网络
在Kubernetes的标准框架里,容器是只有1个网络平面的。即容器里面,只有1个eth0网卡。所以无论是利用overlay实现容器隧道网络,还是underlay实现容器网络直通,其目的都是解决容器网络“通与不通”的问题。而大规模AI集群中,百亿、千亿级别参数量的大模型通常需要做分布式训练,这时参数梯
- 2024-02-23[转帖]IB和RoCE,谁更适合AI数据中心网络?
https://zhuanlan.zhihu.com/p/668576216 超高带宽、超低延迟、超高可靠,这是大模型训练对于网络的要求。多年来,TCP/IP协议一直是互联网通信的支柱,但对于AI网络来说,TCP/IP在某些方面存在着致命的缺点。TCP/IP协议的时延较高,通常在数十微秒左右,同时还会对CPU造成严重的负
- 2024-01-24NVMe over RoCE
1.概览网络从协议的角度上来说,分为应用层(http)传输层(tcp/udp)网络层(ip,路由,拥塞)数据链路层(mac,以太网,交换机)物理层NVMeoverRoCE,全称:Non-VolatileMemoryExpressoverRDMAoverConvergedEthernetRoCE通过以太网来传播,基于ipv4/v6,FCoE(以太网光纤通道)等。工作
- 2023-10-30超低时延RoCE网络助力超级互联战略
10月24日,中关村超互联新基建产业创新联盟和中国智能计算产业联盟主办的“AGI超级互联启动会”成功举行。本次活动吸引了众多行业专家、学者和业界大咖,共同探讨大模型、新算力和新一代AGI基础设施的发展趋势和技术创新方向,星融元COO潘君受邀出席了会议。在会议中,中关村超互联新基建
- 2023-10-18RoCE协议 RDMA技术
RoCE的好处低CPU占用率:访问远程交换机或服务器的内存,无需消耗远程服务器上的CPU周期,从而可以充分利用可用带宽和更高的可伸缩性。零复制:向远程缓冲区发送数据和接收数据。高效:由于RoCE改善了延迟和吞吐量,网络性能得到了很大提高。节省成本:借助RoCE,无需购买新设备或更换以太网
- 2023-10-07带宽优化新思路:RoCE网卡聚合实现X2增长
本文分享自华为云社区《2个RoCE网卡Bond聚合,实现带宽X2》,作者:tsjsdbd。我们知道操作系统里面,可以将2个实际的物理网卡,合体形成一个“逻辑网卡”,从而达到如主备/提升带宽等目的。但是RoCE网卡,是否也跟普通网卡一样,支持Bond能力呢?答案是的,RoCE也可以组Bond,只是比普通网卡多了一些