• 2024-04-22RDMA网卡测试
    ibv_devices系统中所有的RDMA设备,包括其名称和端口信息ibstat显示系统中所有的RDMA设备的详细信息,包括名称、状态 ibv_devinfo显示系统中所有的RDMA设备的详细信息,包括名称、端口信息、状态ibdev2netdev列出RDMA设备与其对应的网络设备之间的映射关系,包括RDMA设
  • 2024-02-25nvmet_rdma_offload_mem_start 预留内存
    要在modprobenvmet_rdma时找到合法的nvmet_rdma_offload_mem_start和nvmet_rdma_offload_mem_size_mb参数,你需要进行一系列步骤以确保选定的内存区域既未被系统其他部分使用,又适合于你的NVMeoverFabrics(NVMe-oF)RDMA目标配置。以下是一个示例流程,展示如何进行这一过
  • 2024-02-25RDMA网络
    在Kubernetes的标准框架里,容器是只有1个网络平面的。即容器里面,只有1个eth0网卡。所以无论是利用overlay实现容器隧道网络,还是underlay实现容器网络直通,其目的都是解决容器网络“通与不通”的问题。而大规模AI集群中,百亿、千亿级别参数量的大模型通常需要做分布式训练,这时参数梯
  • 2024-01-24NVMe over RoCE
    1.概览网络从协议的角度上来说,分为应用层(http)传输层(tcp/udp)网络层(ip,路由,拥塞)数据链路层(mac,以太网,交换机)物理层NVMeoverRoCE,全称:Non-VolatileMemoryExpressoverRDMAoverConvergedEthernetRoCE通过以太网来传播,基于ipv4/v6,FCoE(以太网光纤通道)等。工作
  • 2024-01-24rdma测试
    职位描述负责智能网卡/DPU芯片(FPGA/ASIC)典型网络应用场景如RDMA组网测试、AI/HPC加速的测试验证。负责自动化测试平台(包括自动化框架、测试用例、相关工具及脚本)的开发、部署及应用,并持续优化流程提高覆盖率及测试效率。持续跟进业界新技术,创新性的解决自动化测试过程中的关键
  • 2023-12-27intel网卡系列及RDMA支持
    起源,intel网卡中的SFP+是啥?SFP+是光纤模块,是一种可热插拔的,独立于通信协议的光学收发器。SFP+光纤模块是SFP的升级。SFP+光纤模块在以太网和1G、2G、4G光纤通道上SFP已经得到了广泛应用。SFP+为了适应更高的数据速率,设计了比SFP增强的电磁屏蔽与信号保护特性。 intel800系列
  • 2023-12-09RDMA 控制器 【ChatGPT】
    https://www.kernel.org/doc/html/v6.6/admin-guide/cgroup-v1/rdma.htmlRDMA控制器1.概述1-1.什么是RDMA控制器?RDMA控制器允许用户限制给定一组进程可以使用的RDMA/IB特定资源。这些进程是使用RDMA控制器进行分组的。RDMA控制器定义了可以为cgroup的进程限制
  • 2023-11-03InfiniBand 的前世今生
    今年,以ChatGPT为代表的AI大模型强势崛起,而ChatGPT所使用的网络,正是InfiniBand,这也让InfiniBand大火了起来。那么,到底什么是InfiniBand呢?下面,我们就来带你深入了解InfiniBand。InfiniBand的发展历史InfiniBand(也称为“无限带宽”,缩写为IB)是一个用于高性能计算的计算
  • 2023-10-18RoCE协议 RDMA技术
    RoCE的好处低CPU占用率:访问远程交换机或服务器的内存,无需消耗远程服务器上的CPU周期,从而可以充分利用可用带宽和更高的可伸缩性。零复制:向远程缓冲区发送数据和接收数据。高效:由于RoCE改善了延迟和吞吐量,网络性能得到了很大提高。节省成本:借助RoCE,无需购买新设备或更换以太网
  • 2023-09-21书籍推荐
     《Linux高性能网络详解:从DPDK、RDMA到XDP》:1.Linux网络的瓶颈当Linux在20世纪90年代初设计开发Linux内核时,还无法预料到未来30年全球互联网的规模,所以也不可能按现在的数据流量去做设计。而Linux内核的基本结构也保持到现在。因此问题就在于Linux内核网络协议栈的
  • 2023-09-11rdma-mr内核接口rxe_reg_user_mr
    描述:注册用户内存区域【通过IB_USER_VERBS_CMD_REG_MR】根据type流程:a)    类型转换为rxe类型b)   验证mr_typec)    申请rxe_mem:mr=rxe_alloc(&rxe->mr_pool);d)   为mr分配索引:rxe_add_index(mr)e)    对对象进行引用:rxe_add_ref(pd)f)     构成
  • 2023-09-08RDMA-内核接口-rxe_map_mr_sg
    描述:映射mr的sg调用链:此处多处调用staticintnvme_rdma_map_sg_fr(structnvme_rdma_queue*queue,    structnvme_rdma_request*req,structnvme_command*c,    intcount){   req->mr=ib_mr_pool_get(queue->qp,&queue->qp->rdma_mrs);  /*  
  • 2023-09-08构筑下一代数据中心互联的“超级高速公路”,中科驭数正式发布KPU FLEXFLOW®-2100R RDMA加速DPU卡!
    2023服贸会期间,中科驭数重磅推出最新自研的高性能网络“利器”——KPUFLEXFLOW®-2100RRDMA加速DPU卡。这款产品的发布标志着中科驭数在高性能计算和数据中心领域的不断创新,旨在面向高速网络、高性能存储搭建起算力集群内部通信的"超级高速公路”,助力高性能计算领域创新。站在数
  • 2023-08-23RDMA远程直接内存访问
    RDMA(RemoteDirectMemoryAccess)技术全称远程直接内存访问,就是为了解决网络传输中服务器端数据处理的延迟而产生的。它将数据直接从一台计算机的内存传输到另一台计算机,无需双方操作系统的介入。这允许高吞吐、低延迟的网络通信,尤其适合在大规模并行计算机集群中使用。RDMA通过网
  • 2023-07-30rdma-core之rping.c
    头部信息#define_GNU_SOURCE#include<endian.h>#include<getopt.h>#include<stdlib.h>#include<string.h>#include<stdio.h>#include<errno.h>#include<sys/types.h>#include<sys/socket.h>#include<netdb
  • 2023-07-29rdma-core之riostream.c
    头文件和库以及全局变量#include<stdio.h>#include<stdlib.h>#include<string.h>#include<strings.h>#include<errno.h>#include<getopt.h>#include<sys/types.h>#include<sys/socket.h>#include<sys/time.h>#i
  • 2023-07-28rdma-core之rdma_client.c
    库函数、全局变量#include<stdio.h>#include<stdlib.h>#include<string.h>#include<netdb.h>#include<errno.h>#include<getopt.h>#include<rdma/rdma_cma.h>#include<rdma/rdma_verbs.h>staticconstchar*server
  • 2023-07-25RDMA虚拟环境配置
    3、IB虚拟网络配置检查是否支持:cat /boot/config-$(uname -r) | grep RXE 安装驱动:sudo apt-get install libibverbs1 ibverbs-utils librdmacm1 libibumad3 ibverbs-providers rdma-coresudo apt-get install librdmacm-dev执行ibv_devices检查是否可执
  • 2023-07-24rdma-core--cmatose.c
    分析:头部信息#include<stdlib.h>#include<string.h>#include<stdio.h>#include<errno.h>#include<sys/types.h>#include<sys/socket.h>#include<netdb.h>#include<getopt.h>#include<rdma/rdma_cma.h>#i
  • 2023-06-22Polardb 核心存储 polarfs 是怎么进行数据存储的(1)--译
    POLARDB数据库中有一个核心是他重新设计的存储系统,polarfs,polarfs是怎么设计的架构是怎样的,下面根据官方的一篇详细的英文文档作为翻译的目标https://www.vldb.org/pvldb/vol11/p1849-cao.pdf译PolarFS是专门为polardb设计的分布式文件系统,他具有低延迟,高可用的特点并且这款存
  • 2023-06-13Rdma-core介绍及编译
    一、RDMAlib库安装1.1介绍广义的VerbsAPI主要由两大部分组成verbs和rdma_cmVerbsAPI操作RDMA的函数接口,也就是说业界的RDMA应用,要么直接基于这组API编写,要么基于在VerbsAPI上又封装了一层接口的各种中间件编写。(rdma_cm)VerbsAPI向用户提供了有关RDMA的一切功能,典型的包
  • 2023-06-06浪潮云海新一代超融合重磅发布 全栈 RDMA 焕发极致性能
    5月30日,浪潮云海正式发布新一代 InCloudRailG7 系列超融合一体机,新品基于全栈 RDMA协议的软硬件一体化设计,发布现场实测3节点性能超百万 IOPS,是传统方案的数倍。图:浪潮数据云计算产品总监庞慷宇G7 系列超融合内置下一代分布式存储,通过优化存储前后端网络架构,搭配 RDMA 特
  • 2023-05-31RDMA
      [root@centos7infiniband]#ibv_devicesdevicenodeGUID----------------------rxe0b20875fffe5fb85erxe146a191fffea49c0c[root@centos7infiniband]#ibv_devinfo-drxe0-v
  • 2023-05-20开源之夏 2023 | 欢迎报名Rust相关项目
  • 2023-02-15AI集群通信中的软硬件介绍
    计算机网络通信中最重要两个衡量指标主要是 带宽 和 延迟。分布式训练中需要传输大量的网络模型参数,网络通信至关重要。AI集群通信实现方式AI集群是由多台包含CPU、内