首页 > 其他分享 >RDMA网络

RDMA网络

时间:2024-02-25 09:04:19浏览次数:21  
标签:NCCL 容器 网络 网卡 RDMA RoCE

在Kubernetes的标准框架里,容器是只有1个网络平面的。即容器里面,只有1个eth0网卡。所以无论是利用overlay实现容器隧道网络,还是underlay实现容器网络直通,其目的都是解决容器网络“通与不通”的问题。 而大规模AI集群中,百亿、千亿级别参数量的大模型通常需要做分布式训练,这时参数梯度等信息要在节点间交换,就需要使用RDMA网络来传递。否则以普通以太网进行传输,其仅仅解决“通与不通”这种入门要求,参数信息传的实在太慢了。 RDMA可以绕过TCP/IP协议栈,并且不需要CPU干预,直接从网卡硬件上开始网络数据传递,网络传输性能可以大幅的提升,大大加快训练参数的交换。

所以咱们的AI集群中,必须要将RDMA网络管理起来,使得所有AI容器可以通过这条路,完成各种集合通信算法(AllReduce等)。

如上图,除了「底部」那条咱们平时看到的容器网络那条线外,顶部还有一个「参数面」网络。一般成本考虑咱们都是走RoCE方案,即用IB网卡+以太网交换机(而不是IB专用交换机)实现。而且由于RDMA协议要求网络是无损的(否则性能会受到极大的影响),而咱们要在以太网上实现无损网络,就需要引入PFC(Priority-Based Flow Control)流控逻辑。

这个就需要同时在交换机和服务器RoCE网卡上,两侧同时配置PFC策略进行流控,以实现无损网络。 可见,「参数面」网络的管理,会比普通主机网络,多一份PFC调优的复杂度。而且,由于NCCL性能直接影响训练速度,所以定位NCCL性能掉速or调优NCCL性能,也是系统必须提供的运维能力之一。 并且RoCE网卡的管理,也属于“异构资源”,也需要开发Device-plugin来告知K8s如何分配这种RoCE网卡。而且GPU和RoCE网卡是需要进行联合分配的,因为硬件连接关系,必须是靠近在一起的配对一起用,如下:

- 因此,除了「参数面」网络设备的管理分配以外,还得关联调度逻辑来感知这个RoCE网卡的硬件拓扑。

标签:NCCL,容器,网络,网卡,RDMA,RoCE
From: https://www.cnblogs.com/muzinan110/p/18031911

相关文章

  • 关闭Windows网络连接状态指示器的活动测试 注册表 REG
    REG文件来关闭Windows网络连接状态指示器的活动测试:CopyCodeWindowsRegistryEditorVersion5.00[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\NlaSvc\Parameters\Internet]"EnableActiveProbing"=dword:00000000该文件将向注册表添加一个名为"EnableActivePr......
  • 深度学习-卷积神经网络-dropout-图像增强-优化器-45
    目录1.dropout2.数据增强3.优化器1.dropout使用L1和L2正则去限制神经网络连接的weights权重在深度学习中,最流行的正则化技术,它被证明非常成功,即使在顶尖水准的神经网络中也可以带来1%到2%的准确度提升,这可能乍听起来不是特别多,但是如果模型已经有了95%的准确率,获......
  • 计算机网络概述
    计算机网络概念计算机网络主要是由一些可编程的、通用的硬件互联而成,而这些硬件并非用来实现某一特定目的(例如传输数据或者视频信号)。这些可编程的硬件能够用来传送多种不同类型的数据,并能支持广泛的和日益增长的应用。计算机网络由若干节点和连接这些节点的链路组成。网络......
  • 计算机网络体系结构1.3标准化及相关组织
    计算机网络标准化及相关组织标准化工作:标准分类:法定标准\事实标准法定标准:有权威机构指定的正式的\合法的标准.(可以是国内的法定标准,亦可以是国际的法定标准)-->>OSI参考模型事实标准:某些公司的产品在竞争中占据了主流,时间长了,这些产品中的协议和技术就成了标......
  • 计算机网络(项目驱动)(微课版)
       主 编:刘春红张同光   出版单位:清华大学出版社   ISBN:   ISBN:   出版时间:2024.7   CIP:   定价:¥ 一本高校计算机专业的网络课程可以选用作为实验教材。一本院校的非计算机专业,二本、高职高专等高校的网络课程都可以直接选用为网络教材使用......
  • [转帖]IB和RoCE,谁更适合AI数据中心网络?
    https://zhuanlan.zhihu.com/p/668576216 超高带宽、超低延迟、超高可靠,这是大模型训练对于网络的要求。多年来,TCP/IP协议一直是互联网通信的支柱,但对于AI网络来说,TCP/IP在某些方面存在着致命的缺点。TCP/IP协议的时延较高,通常在数十微秒左右,同时还会对CPU造成严重的负......
  • python基础学习8-网络协议、进程与线程
    UDP协议用户数据包协议socketbind()sendall()recvfrom()sendto()close()TCP服务器端流程:使用socket类创建一个套接字对象使用bind((ip,port))方法绑定ip地址和端口号使用listen()方法开始TCP监听使用accept()方法等待客户端的连接使用recv()/send()方法接受发送......
  • 网络流量分析、故障排除和性能监控:提高网络稳定性的关键步骤
    背景在当今数字化时代,网络已经成为企业运营的核心要素,有效的网络管理对于业务的顺利进行至关重要。网络流量分析、故障排除和性能监控是保持网络稳定性的重要步骤。本文将探讨这三个关键方面,并介绍如何通过它们提高网络性能,确保业务连续运转。网络流量分析网络流量分析是网络管......
  • 通俗理解'网络基础'
    网络基础好文地址:-https://www.cnblogs.com/flashsun/p/14266148.html集线器:无脑转发所有的数据包(物理层)数据包-源Mac:xxx-目标Mac:yyy-数据包:zzz交换机:高级版'集线器',不再无脑转发,从一个电脑发包到另外一个电脑(数据链路层)-交换机内部维护着......
  • docker 自定义网络
    docker的网络分为:单主机、跨主机这篇先说:单主机我们先说一下docker的原生网络模式网络模式简介优点使用场景none空网络,没有网络此网络与外界隔离,安全度非常高适合公司内部生产密钥host容器与宿主机共享namespace直接使用宿主机的网络,网络性能方面最好。......