首页 > 其他分享 >科普文:软件架构网络系列之【信创:SAN 交换机“卡脖子”,RoCE V2 成破局关键】

科普文:软件架构网络系列之【信创:SAN 交换机“卡脖子”,RoCE V2 成破局关键】

时间:2024-10-30 09:48:09浏览次数:3  
标签:存储 SAN NVMe 卡脖子 网络 成破局 RDMA RoCE

概叙

目前,不少企业数据中心使用 FC 交换机和集中式 SAN 存储(以下简称“FC-SAN 架构”),支持核心业务系统、数据库、AI/ML 等高性能业务场景。

科普文:软件架构Linux系列之【非信创方案VMAX250F:城商行核心存储系统升级改造和统一存储监控实现实践分享】李军华-CSDN博客

而在开展 IT 基础架构信创转型时,很多用户被国外交换机“卡了脖子”:FC 交换机市场几乎被 Broadcom 和 Cisco 等国外厂商垄断,很难找到成熟的国产替代方案。

科普文:软件架构网络系列之【高性能网络/存储之基础:TCP/IP、DMA、RDMA、Infiniband、RoCE、iWARP】-CSDN博客

而随着 RoCE(RDMA over Converged Ethernet) 这一高性能网络技术的日渐成熟,以太网交换机 + NVMe-oF 或成为破局关键。

科普文:软件架构网络系列之【高性能存储网络的革新之路 NVMe over RDMA】-CSDN博客

科普文:软件架构网络系列之【RDMA应用:一文看懂高性能网络】-CSDN博客

由于 RoCE 通过以太网使用 RDMA(Remote Direct Memory Access)网络协议,用户可以使用国产以太网交换机替代 FC 交换机;

搭配支持 NVMe over RDMA(RoCE v2)和信创 CPU 架构的分布式存储,即可同步实现 IT 基础架构的信创转型与架构升级,满足核心业务应用“高性能、低延迟”的需求。

以下将结合权威机构趋势报告和行业用户实践,讨论这一转型方案的可行性。

替代可行性:技术成熟度与信创实践难度分析

技术成熟度:RoCE 成主流 RDMA 实现方案,NVMe-oF(RoCE)获多厂商与权威机构青睐

传统以太网采用 TCP/IP 作为网络传输协议。由于 TCP/IP 协议栈处理带来的延迟较长、服务器 CPU 消耗更高,本质上属于有损网络,其性能一直比不过 FC 网络,这也是为什么企业多采用 FC-SAN 架构支持高性能应用场景。

而 RDMA 技术的出现,为解决 TCP/IP 的缺陷,提供了一种全新且高效的解决思路:通过直接内存访问技术,数据从一个系统快速移动到远程系统的内存中,无需经过内核网络协议栈,无需双方操作系统的介入,最终达到高带宽、低延迟和低 CPU 资源占用的效果。

RoCE 正在成为主流的 RDMA 实现方案。

相比更早出现的 InfiniBand 技术,RoCE 支持无损以太网部署,无需使用专有网络(IB),成本也更低。

科普文:软件架构网络系列之【RDMA技术实现:一文搞懂 RoCE v2】-CSDN博客

科普文:软件架构网络系列之【RDMA 能给数据中心带来什么:数据中心网络最佳选择是RoCEv2不是InfiniBand】-CSDN博客

科普文:软件架构网络系列之【RDMA技术实现之RoCEv2:TCP的变革者还是取而代之者】-CSDN博客

虽然 RoCE 在诞生之初有诸多不足, 但经过 10 多年的发展,目前的 RoCE v2 技术已具备路由能力,且在性能表现上已经达到与 InfiniBand 相同甚至更高的水平。

Mellanox 发布的《RoCE in the Data Center》白皮书明确表示,直到 RoCE 的出现与成熟,RDMA 才在基于以太网的数据中心得到大规模的应用,为数据中心业务带来低延迟、高性能的体验。

中国移动发布的《以太无损网络测试技术白皮书》也指出,“在高性能计算和存储场景中,基于 RoCE 技术构建数据中心网络已成为主流解决方案之一,该方案融合了 RDMA 和以太网的优势”。

目前国际主流的网卡与适配器制造商,如 Intel、Mellanox、Cisco、Broadcom 等,均提供以 RoCE v2 技术实现 RDMA 能力的产品和方案。

众多主流云服务商,如 Microsoft - Azure 和 Orcale - Oracle Cloud Infrastructure(OCI)也利用 RoCE 提升方案网络性能。

例如,OCI 利用英伟达 ConnectX SmartNICs 和 RoCE 技术构建支持弹性扩展与低延迟的高性能网络,为高性能计算、GPU、AI/ML、Oracle 数据库等场景提供高性能网络能力。

国内厂商浪潮也帮助用户基于 Kubernetes 和 RoCE v2 构建 AI 训练集群,提升整体运算性能。可以看出,以 RoCE 支持核心业务场景(尤其是高性能业务场景),已得到业内广泛认可。

虽然 RoCE 对以太网交换机没有能力要求(仅要求网卡支持 RoCE),但要求存储产品提供 RDMA/RoCE 支持。其中应用最广泛的技术之一就是 NVMe-oF(NVMe over Fabrics)。NVMe-oF 是一种数据接入协议,将 NVMe 在单系统内部提供的高性能、低延迟和极低的协议开销等优势,进一步发挥到客户端与存储系统互联的网络结构当中。

Gartner 在《Top Trends in Enterprise Data Storage 2023》报告中指出,NVMe-oF 是块存储领域未来发展的三大重点之一:“NVMe-oF 方案适用于基于 NVMe 硬盘的低延迟应用场景 … 该技术可充分满足应用对高性能和灵活扩展的存储能力要求。同时,在分布式和软硬件解耦的平台上, NVMe-oF 可进一步发挥和增强存储系统的能力。”

根据 Gartner 的预测,到 2027 年,至少 25% 的企业都会使用 NVMe-oF 进一步提升存储性能,以支持 AI/ML、HPC、数据库、金融核心交易系统等高性能应用场景。

NVMe-oF 支持多种传输层协议,包括 FC(NVMe over FC)、RDMA(NVMe over RDMA)和 TCP(NVMe over TCP)。

其中,NVMe over FC 基于传统的 FC 网络,并不适合信创采用。Gartner 在《Competitive Landscape: Innovative All-Flash Array Offerings Architected for the Data-Centric Era》调研中也发现,大部分存储厂商对 NVMe-oF 的支持集中在 NVMe over RDMA/RoCE 和 NVMe over TCP 这两种方案上。

而相比 TCP 而言,RDMA/RoCE 可以提供更好的性能,因此数据中心更适合采用 NVMe over RDMA/RoCE,支持对性能和延迟敏感的业务。

现阶段,NVMe over RDMA/RoCE 的应用情况如何?

目前,国内用户常见的主流存储厂商,包括 VMware vSphere+vSAN、Dell EMC、IBM、华为 OceanStor、志凌海纳 SmartX 等,均提供支持 NVMe over RDMA/RoCE 的方案/版本,且在国内已具备实践案例(在下文展开解读),充分证明了技术的成熟与可靠性。

将RoCE应用到HPC上存在的问题

HPC网络的核心需求有两个:①低延迟;②在迅速变化的流量模式下仍然能保持低延迟。

将RoCE应用到HPC中有如下问题:

  1. 以太网交换机的延迟相比于IB交换机以及一些HPC定制网络的交换机要高一些
  2. RoCE的流量控制、拥塞控制策略还有一些改进的空间
  3. 以太网交换机的成本还是要高一些

 国内厂家的无损网络方案

华为
华为iLossless智能无损算法方案是一个通过人工智能实现网络拥塞调度和网络自优化的AI算法,其以Automatic ECN为核心,并在超高速数据中心交换机引入深度强化学习DRL(Deep Reinforcement Learning)。基于iLossless智能无损算法,华为发布了超融合数据中心网络CloudFabric 3.0解决方案,引领智能无损进入1.0时代。

2022年,华为超融合数据中心网络提出了智能无损网算一体技术和创新直连拓扑架构,可实现270k大规模算力枢纽网络,时延在智能无损1.0的基础上,可进一步降低25%。

华为智能无损2.0基于在网计算(In-network computing)和拓扑感知(Topology-Aware Computing)实现网络和计算协同。网络参与计算信息的汇聚和同步,减少计算信息同步的次数;同时,通过调度确保计算节点就近完成计算任务,减少通信跳数,进一步降低应用时延。

新华三
新华三推出的AI ECN智能无损算法,能根据网络流量模型(N打1的Incast值、队列深度、大小流占比等流量特征),通过强化学习算法对流量模型进行AI训练,实时感知和预测网络流量变化趋势,自动调节出最优的ECN水线,进行队列的精确调度。在尽量避免触发网络PFC流控的同时,兼顾时延敏感小流和吞吐敏感大流的转发,进一步保障整网的最优性能。

新华三AD-DC SeerFabric无损网络解决方案。基于云边AI协同架构,通过对业界AI ECN调优算法的优化创新,结合新华三数据中心交换机的本地AI Inside能力,在保障零丢包的情况下,尽可能提升吞吐率、降低时延,保障网络业务的精确转发和网络服务质量的确定性。同时,通过精细化的智能运维,实现RoCE网络的业务体验可视。

浪潮
2022年4月,浪潮网络以支持RoCE技术的数据中心以太网交换机为核心,推出了典型的无损以太网解决方案,具备以下优势:

1)计算、存储、网络、AIStation无缝融合。支持PFC、ECN等网络流控技术,以构建端到端、无损、低延时的RDMA承载网络。而交换机完美的缓存优势,可平滑吸收突发流量,有效应对TCP incast。

2)故障主动发现、自动倒换。RoCE-SAN网络与存储业务协同、故障快速感知,交换机快速检测到故障状态,并通知给相关业务域内订阅通知消息的服务器,以便业务快速切换到冗余路径,降低对业务的影响。针对大型无损以太网环境下PFC死锁的问题,可以提供芯片级防PFC死锁机制,实现自动检测PFC死锁及恢复。

3)存储即插即用。RoCE-SAN网络能够自动发现设备服务器与存储设备的接入,并通知服务器自动建立与存储设备的连接关系。

信创实践难度:信创以太网交换机与存储方案成熟,行业头部用户已实现转型

“以太网交换机+支持 RoCE 的存储”在技术上可以实现 FC 交换机的信创替代,在实践层面可行吗?有信创方案和实践支持吗?

  • 以太网交换机:国产以太网交换机已经比较成熟了,国内厂商如华为、H3C、锐捷等均可提供国产替代方案。

  • 支持 RoCE 的网卡:国内品牌如华为可提供 25GbE 支持 RoCE v2 的自研网卡产品,但对于更高带宽的使用场景,目前的主流选择还是 Intel、Mellanox 等厂商产品。不过这些非国产品牌的网卡,目前仍在信创场景中普遍使用,且可通过信创验收,因此暂不影响用户的选择和使用。

  • 支持 RoCE 的 SAN 存储:国内厂商如华为 OceanStor 的部分高端集中式存储可支持 NVMe over RDMA(RoCE v2)。

另外可以看到,一些国内企业,如中国工商银行、中国移动、中国银行等行业头部用户,已经先行一步,基于 NVMe over RoCE 技术开展了高性能存储网络转型。

科普文:软件架构Linux系列之【RoCE应用:工商银行率先完成金融高性能存储网络体系重构】吴仲阳 曾金 余学山-CSDN博客

例如,中国工商银行在深入调研高性能网络、存储基础设施等技术及产业应用发展情况后,选定 NVMe over RoCE 技术作为金融高性能存储网络的技术路线,率先建成 RoCE-SAN 高性能存储网络体系的“多地多中心”高可用架构,并进入规模化推广应用阶段,有效缓解金融广域骨干网流量压力并降低成本。

不过类似工行的转型实践,是将 FC-SAN 架构替换为 RoCE-SAN,即不改变底层集中式存储架构,利用 RoCE-SAN 插件实现以太网交换机的替代。

还有一种方式是采用软件定义的存储——存算分离架构的分布式存储或超融合。这种“新一代数据基础设施”搭配 RoCE,同样能实现 FC 交换机的信创转型,同时提供更好的性能和灵活扩展能力,为高性能应用和新业务的快速上线提供敏捷支持。

中国移动完成RoCE-SAN解决方案实验室测试

日前,中国移动联合华为、锐捷和Mellanox完成了RoCE-SAN解决方案实验室测试。测试表明,RoCE-SAN在功能、IOPS性能和故障收敛性能方面均达到并优于FC-SAN和IP-SAN,具备替代FC-SAN和IP-SAN的可行性。

当前,业内主要使用FC-SAN和IP-SAN网络为各种业务系统提供存储接入服务。

  1. FC-SAN适用于要求高IOPS和高可靠性的集中式存储业务,具备0丢包、高可靠等优点,但同时也存在技术封闭,供应商单一,采购、维护成本高等问题;
  2. IP-SAN适用于对IOPS性能要求不高的分布式存储业务,具备开放、低成本的优点,但是随着服务器网卡带宽从万兆提升至25G、分布式存储介质从HDD向SSD演进,IP-SAN网络将会成为整个业务系统IOPS提升的瓶颈。

RoCE-SAN是一种基于RoCE协议的高性能存储区域网络,具备零丢包、低时延、即插即用及故障快速收敛等特点,能够兼备FC-SAN和IP-SAN的优点,并且实现FC-SAN与IP-SAN的融合。

RoCE-SAN网络架构

如图RoCE-SAN网络架构  所示,RoCE-SAN由服务器、交换机与存储设备构成,根据设备数量可以采用单层组网或Spine-Leaf 3层组网。用户可以根据业务需求选择安装RoCE-SAN插件,从而实现服务器/存储设备即插即用和故障快速收敛。

测试结果表明,当网络流量轻载时,如图2所示,在不同的流量模型下,RoCE-SAN的IOPS性能相比FC-SAN提升了9%~60%,相比IP-SAN提升了8%~134%。当网络流量重载时,IP-SAN频繁丢包,已经无法提供服务。而RoCE-SAN避免网络拥塞,实现了0丢包,而且在不同的流量模型下,RoCE-SAN的IOPS性能相比FC-SAN还提升了31%~81%。

故障收敛性能表

当网络发生故障时,如故障收敛性能表 所示,RoCE-SAN在不同故障场景下的收敛性能好于FC-SAN与IP-SAN。

本次测试使用业务IO归零时间衡量故障收敛性能,单位是秒。IO归零时间越短,说明存储路径切换速度越快,故障收敛性能越好。

目前,中国移动正在IT云资源池进行RoCE-SAN现网试点。

接下来,中国移动将推动RoCE-SAN插件消息接口的标准化,实现服务器/存储设备与交换机设备跨厂家互通,同时探索通过水线自动调优技术进一步提升RoCE-SAN的IOPS性能,与合作伙伴一起携手引领RoCE-SAN技术尽快走向成熟。

RoCE + 软件定义的分布式存储:补齐短板,相辅相成

作为一种现代化存储,软件定义的分布式存储将存储资源池化,并将数据分散放置在多个节点中,节点通过网络互连提供存储服务,从而充分与存储硬件解耦,并提升存储资源利用率和扩展能力。

虽然分布式架构消除了集中式存储控制器瓶颈,使得并发性能能够随节点的增加而线性增长,但由于基于 TCP/IP 协议栈的 iSCSI 依然是分布式存储主流的接入方法之一,其对 NVMe 新型存储介质的支持已略显疲态,难以充分满足高性能应用对“低延迟”的要求。

以 NVMe over RDMA(RoCE)搭配软件定义的分布式存储,不仅可以实现低延迟极速网络传输,还可以充分发挥分布式存储高性能、易扩展的优势,让用户在开展 IT 基础架构信创转型的同时,实现基础设施的现代化转型。

替代方案优势总结

  • 同时实现信创转型与架构升级:以标准以太网交换机和支持 NVMe over RDMA(RoCE)的存储方案替代 FC 交换机,可避免 FC 交换机“卡脖子”问题;同时以更精简的分布式存储架构替代集中式 SAN 存储,可进一步实现 IT 基础架构的现代化升级。若采用 SmartX 分布式存储/超融合,用户还可使用 海光、鲲鹏等信创 CPU 和 Kubernetes 平台,完善信创转型与容器化升级。

  • 提供“高性能”“低延迟”存储支持:软件定义的分布式存储搭配 RDMA 协议,可在提升存储性能的同时降低网络延迟,充分满足高性能业务场景需求。

  • 降低成本与运维压力:以性价比更高的以太网交换机和分布式存储替代 FC 交换机和高端存储,节约成本的同时可有效降低运维压力。SmartX 还提供超融合部署方式,进一步精简架构和运维。

标签:存储,SAN,NVMe,卡脖子,网络,成破局,RDMA,RoCE
From: https://blog.csdn.net/Rookie_CEO/article/details/143337659

相关文章

  • Chromium 沙盒Sandbox源码介绍(2)
    本篇主要说下沙箱的job:一、JobLevel//TheJoblevelspecifiesasetofdecreasingsecurityprofilesforthe//Jobobjectthatthetargetprocesswillbeplacedinto.//Thistablesummarizesthesecurityassociatedwitheachlevel:////JobLevel......
  • KASan部署、使用与原理分析
    文章目录前言1、概述2、使用方法3、测试用例3.1、检测加载的内核模块3.2、检测调用的内核模块3.3、通过系统调用检测3.4、检测编译到Linux内核中的内核模块4、工作原理4.1、影子内存(ShadowMemory)4.2、内存状态(MemoryStates)4.3、红色区域(Redzones)4.4、KASan的实现5、......
  • 揭秘Windows Anytime Upgrade的守护神:windowsanytimeupgradecpl.dll及缺失应对秘籍
    在Windows操作系统的世界里,有一个不为人知但至关重要的文件——windowsanytimeupgradecpl.dll。这个文件是WindowsAnytimeUpgrade功能的守护者,它负责管理和执行Windows版本的升级过程,确保用户能够顺利地从低版本升级到更高版本的Windows系统。WindowsAnytimeUpgrade的守......
  • 闪迪SanDisk固态硬盘维修数据恢复
    固态硬盘(SSD)维修和数据恢复是一个复杂的过程,涉及多个步骤和工具。以下是一些关键的步骤和建议,以帮助您有效地进行固态硬盘的维修和数据恢复:一、固态硬盘维修检查连接:打开计算机主机箱,检查固态硬盘的SATA或NVMe接口连接线是否插紧,是否有松动或断裂。重新插拔连接线,然后重启计算......
  • BUUCTF之Sandbox-bad
    BUUCTF之Sandbox-bad首先针对sandbox,我们需要有一个大概的认知,他是在一个代码执行环境下,脱离种种过滤和限制,最终成功拿到shell权限的过程,通常我们采用orw的方式来获取flag.orw全称onlyreadwrite,只使用readwrite函数将flag读取并且打印,shellcode分为三个步骤使用open函数......
  • san网络ISL链路聚合
    san网络ISL链路聚合ISL链路聚合ISL(Inter-Switch-Link)链路聚合就是ISLTrunking,把两台交换机之间满足一定条件的多条物理路径合并成一条逻辑路径的技术。交换机配置Trunking后可以扩展链路的总的带宽和提高链路的可靠性。ISL方式级联的交换机间的多个路径要配置Trunking,要形成Tru......
  • San交换机的级联
    san交换机的级联背景:san交换机端口不够,需要再连一台交换机进行端口的扩充首选查看两台机器是否有级联许可 检查发现两台都有级联许可     两台交换机达到要求后,拿线把第一台交换机的0口连接到第二台交换机的0口,稍等片刻,交换机的配置会自动同步......
  • SAN交换机配置的备份还原,固件升级
    SAN交换机配置的备份还原,固件升级 FTPServer:使用3CDeamon这个软件(设置过程略)     ......
  • VSAN演变以及主要功能
    VSAN演变以及主要功能 ......
  • 【Springboot】注解EqualsAndHashCode
    先看问题,如图所示注解解释@EqualsAndHashCode作用与子类上callSuper=true,根据子类自身的字段值和从父类继承的字段值来生成hashcode,当两个子类对象比较时,只有子类对象的本身的字段值和继承父类的字段值都相同,equals方法的返回值是true。callSuper=false,根据子类......