近日,焱融全闪分布式文件存储 F8000X 在英伟达网络中国实验室成功完成与 NVIDIA Quantum-2 InfiniBand ConnectX-7 NDR 400Gbps 智能网卡(HCA) 的适配及性能调优,其在存储层支持多张 InfiniBand 网卡聚合,实现多卡性能叠加和高可用。实测单个存储节点配置 2 张 NDR 400Gbps 网卡,可达 80GBps 带宽和 300 万 IOPS 的极致性能,是国内首家支持 NVIDIA Quantum-2 InfiniBand ConnectX-7 系列网卡的文件存储厂商。
实现 AI 大模型先进算力
存储网络是关键
近年来, HPC 高性能计算与人工智能、大数据等新兴技术相互融合,催生了众多新的应用与创新,如科学智能 AI for Science,也推动了大型智算数据中心的建设。随着数据中心分布式计算集群的规模越来越大,数据量指数级膨胀,而大规模集群间大量数据传输的开销也越来越大,这需要高性能、低延时的网络来实现对算⼒、存储等分布资源的整合。比如:大模型训练集群往往采用混合并行(模型并行+数据并行+张量并行)的方式进行训练,GPU 集群从存储集群拉去样本数据、GPU 节点之间的参数交互,这两个数据传输的流程都需要高性能、低延时的网络作为基础。
InfiniBand 作为高性能计算的计算机网络通信标准,具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连,是业界公认的在 HPC、大模型 AI 训练等计算场景中首选网络类型。在最新发布的全球最强超级计算机排名 Top500 的榜单中,InfiniBand 网络再次以绝对的数量和性能优势蝉联超级计算机互连设备数量榜首。
InfiniBand 网络在 Top500 网络互联技术占比
NVIDIA Quantum-2 采用第七代 NVIDIA InfiniBand 网络架构,支持软件定义网络、网络计算、性能隔离、高级加速引擎、原生支持 RDMA 等技术特性,高达 400 GBps 的网络带宽,在降低成本和复杂性的同时为高性能计算 (HPC)、AI 和超大规模云基础设施中带来超强性能的网络平台支撑。
焱融追光 F8000X 是焱融科技为匹配大规模 GPU 并发数据处理需求,倾力打造的全闪分布式文件存储一体机系列产品。搭载新一代 64 位计算平台和焱融高性能分布式文件存储系统 YRCloudFile,采用全 NVMe 闪存介质、200/400Gbps InfiniBand 和 100GbE 以太网等高速网络,支持 RDMA、RoCE 和多网卡聚合技术,凭借极致存储性能充分释放计算潜力。为充分发挥出全闪存储介质(NVMe SSD )和InfiniBand 高速网络等先进硬件的能力,完美匹配高性能 GPU 算力集群对数据访问的需求,焱融 F8000X 进行了全面深度的优化设计:
- 异步多队列线程池模型:能够充分利用 NVMe 的多队列特性,高效分配处理器核心资源,支撑网络层面高并发数据收发处理的同时,还可以避免大量线程的调度开销,充分发挥 NVMe SSD 磁盘性能。
- 采用 Polling 的方式减少系统上下文切换,降低延迟:针对 NVMe 全闪系统采用直接 Polling 的方式,相当于是用 CPU 资源换取低延迟,每个盘启动一个线程一直 polling,当来任务时立马去感知到事件去处理,使得 IOPS 提升,降低延迟。
- 通过 Multi-Channel 技术实现多张 InfiniBand 网卡带宽性能聚合,在大 IO 场景下可以轻松跑满全部网卡性能,单个存储节点可以达到 80 GBps 带宽和 300 万以上的 IOPS 的极致性能。同时支持多网卡的 failover 以及自动检测的 failback 功能,避免链路故障造成的业务中断。
- 支持 NVIDIA GPUDirect Storage(GDS)技术:支持 GPUDirect Storage(GDS)功能,能够更好地管理数据路径,使得数据在应用程序和存储之间通过更短、更有效的路径传输。从而使支持 GDS 的应用程序能够充分释放 GPU 计算能力,为人工智能和机器学习(AI/ML)以及数据分析等业务加速。
400Gbps InfiniBand ✖️焱融全闪 F8000X
性能飙升 100%
在实际测试中, 焱融全闪分布式文件存储 F8000X 搭载 NVIDIA Quantum-2 InfiniBand NDR 400Gbps 与上一代 NVIDIA Quantum InfiniBand HDR 200Gbps 网络的实测性能对比表现如下:
IOPS 性能
带宽性能
可以看到,搭载 2 张 NDR 400Gbps InfiniBand 网卡的 F8000X 存储节点,每个存储节点的带宽性能可以达到 80GBps,IOPS 性能可以达到 300万,性能提升 100%。
作为焱融科技的深度合作伙伴,英伟达表示:“焱融科技是国内最早采用 Quantum 平台 InfiniBand 的并行文件存储系统的合作伙伴,基于 InfiniBand 原生 RDMA,无损网络及超低时延的特性,焱融的并行文件系统 YRCloudFile 具备业界一流的存储性能和接近线性的扩展能力,非常适合大规模高性能集群的存储场景应用。”
——英伟达网络高级市场开发经理陈龙
焱融科技作为业界领先的分布式文件存储厂商,推出的 F8000X 全闪分布式文件存储产品,国内首家支持 400Gbps NDR InfiniBand 网络,并率先通过 Multi-Channel 技术支持 800Gbps InfiniBand 网络,再次完成巨大性能提升。F8000X 全闪分布式文件存储产品广泛使用于 HPC 高性能计算 、AI 大模型训练、高性能数据分析 HPDA、自动驾驶、生信分析等应用场景,并在人工智能、自动驾驶、互联网、工业制造等多个行业用户的核心业务平台上线,落地数十家领先的企业和科研机构,部署规模达到数百个存储节点,支撑的最大计算集群规模超过 2000 台计算节点,是企业首选的高性能存储系统。
推荐阅读
国内首发|焱融科技 YRCloudFile 支持 NVIDIA GPUDirect Storage(GDS)
焱融全闪 X NVIDIA InfiniBand:打造 AI 时代 GPU 计算的高性能存储技术