一、交换机简介:
基于NVIDIA quantum -2的QM9700和QM9790交换系统提供64个逻辑端口,在1U标准机箱设计中,每个逻辑端口400Gb/s ib,支持32个800G/s OSFP光模块,支持最新的NDR技术,NVIDIA Quantum-2带来了一个高速、极低延迟和可扩展的解决方案,其中包含最先进的技术,如远程直接内存访问(RDMA)、自适应路由和NVIDIA可扩展分层聚合和缩减协议(SHARP)™。不同于任何其他网络解决方案,NVIDIA InfiniBand提供了自我修复网络功能和质量服务质量(QoS)、增强的虚拟通道(VL)映射和拥塞控制,以提供最高以提供最高整体应用程序吞吐量。
QM9700和QM9790 NDR InfiniBand交换机实现了最大的灵活性,因为它们可以实现各种拓扑结构,包括Fat Tree、SlimFly、DragonFly+、多维圆环等。它们还向后兼容前几代,并包括扩展软件生态系统支持。
今天的复杂研究要求超快速处理高分辨率模拟数据集,以及需要实时交换信息的复杂、高度并行的算法时间QM9700 NDR InfiniBand交换机扩展了NVIDIA网络计算技术和介绍第三代NVIDIA SHARP技术SHARPv3。创造几乎无限的通过数据中心网络进行大规模数据聚合的可扩展性,参与应用程序的运行时间,并减少遍历网络所需的数据量。通过实施NVIDIA端口拆分技术,QM9700和QM9790交换机提供了双倍密度
支持最低200Gb/s(NDR200),降低网络设计和网络成本拓扑结构。NVIDIA最多支持128个200Gb/s端口,提供了密度最高的机架顶部(TOR)
QM9700系列交换机支持中小型交换机部署以两级胖树拓扑进行扩展,同时减少功耗、延迟和空间
要求。交换机内部集成了子网管理器,开箱即用,最多支持2000个节点,子网管理器通过web命令行(cli),提供完整的交换机管理,支持通过web UI ,SNMP协议,JSON接口进行统一管理与监控,易维护,能够快速排除故障,降低了运营成本。
QM9700前视图
QM9790前视图
QM9700&QM9790后视图
1.1 交换机物理端口规格
型号 | NDR 400Gb/s OSFP Interfaces | 最大吞吐量 |
QM9700系列 | 32 | 51.2Tb/s |
QM9790系列 | 32 | 51.2Tb/s |
1.2 交换机管理接口、PSU和风扇规格
型号 | USB | MGT | I2C | Console | 可更换电源 | 可更换风扇 |
QM9700系列 | 前面板(USB3.0 type A) | 前面板(1 port) | NA | 前面板 | Yes, 2 | Yes, 7 |
QM9790系列 | NA | NA | Front (USB3.0 type A) | NA | Yes, 2 | Yes, 7 |
1.3 端口拆分及ib线
QM9700 和QM9790 1U交换机提供32个NDR 800G物理端口,支持端口拆分模式,支持单个NDR 400G/s逻辑端口拆分成2个 NDR 200G/s端口使用,需要使用一分二IB线,交换机端400G,服务器端分成2个200G,单个端口最高支持拆分成2个通道4个逻辑端口使用。
1分4线缆
注意:拆分接口会删除该接口上的所有配置。为了能够使用此功能,系统配置文件命令必须使用拆分就绪配置激活
为了使更改生效,需要重新启动交换机,或者运行flint-d<device>swreset
QM9700/QM9790拆分选项
所有NDR端口都是可拆分的。每个空着的插槽(官方叫笼子,总共32个),包含两个400G的NDR逻辑端口,每个逻辑端口NDR端口可以一分为二,这样每个空插槽最大支持拆分成4个200G。
1.3.1 物理端口示意图
可以为QM97x0 NDR交换机系统选择两个端口表示配置文件。在这两种情况下系统前面板中的固定空槽位容纳来自同一ASIC的两个端口,固定框架编号为全局的
1.ASIC/Cage/Port:
2.ASIC/Cage/Port/Split:
1.3.2 逻辑端口示意图
QM97x0 NDR交换机系统可以选择两种配置文件。第一个定义系统为一个纯64端口NDR(32个机架)交换机。其他配置文件允许将任何或所有NDR端口拆分为两个2X(NDR200)端口。下图显示逻辑端口如何映射到IB工具(例如ibnetdiscover)查看的物理NDR端口:交换机配置文件:不可拆分(适用于L2/Spine交换机)
1分2模式
注意:IB工具报告65个逻辑端口。端口65是用于SHARP的内部端口启用SHARP时的聚合节点。
1分4模式
注意:IB工具将报告129个逻辑端口。端口129是用于的内部端口启用SHARP时的SHARP聚合节点。
二、交换机基本配置
2.1 禁用DHCP
DHCP用于自动获取交换机管理IP地址。如果用户通过SSH连接,运行向导并关闭DHCP,则连接立即终止,因为管理接口丢失了其IP地址。在这种情况下,使用串口线连接交换机
<localhost># ssh admin@<ip-address>
Mellanox MLNX-OS Switch Management
Password:
Mellanox Switch
Mellanox configuration wizard
Do you want to use the wizard for initial configuration? yes
Step 1: Hostname? [my-switch]
Step 2: Use DHCP on mgmt0 interface? [yes] no
<localhost>#
2.2 通过串口线配置
2.2.1 确保连接到控制台RJ45端口,而不是(以太网)MGT端口。
注意如下图:
2.2.2 使用Xshell ,MobaXterm等终端软件 ,按照下图进行设置
... .
This terminal is not active for input or output while booting.
Boot Menu .
-------------------------------------------------------------------
0: <image #1>
1: <image #2>
-------------------------------------------------------------------
Use the ^ and v keys to select which entry is highlighted.
Press enter to boot the selected image or 'p' to enter a
password to unlock the next set of features.
Highlighted entry is 0:
2.2.3 初次登录交换机向导示例
串口登录向导显示示例 | 注释 |
Do you want to use the wizard for initial configuration? yes | 您必须执行此操作 第一次配置 操作开关或之后 将开关重置为 出厂默认值。键入“y”和 然后按<Enter>。 |
Step 1: Hostname? [switch-1] | 如果您希望接受默认主机名,然后按回车,否则,键入 不同的主机名和按键进来 |
Step 2: Use DHCP on mgmt0 interface? [yes] | 执行此步骤配置交换机的管理IP地址。(mgmt0是管理层交换机的端口。) 1.如果您希望DHCP服务器要分配IP管理地址,请键入“yes”,然后按<Enter>。 2.如果键入“no”(无DHCP), 然后询问您希望使用“zerocof” 配置则。 输入“yes”(yes Zeroconf) 会话将继续,如下图所示 “IP Zeroconf Configuration” 如果手动配置静态管理IP输入“否”(否Zeroconf),那么您需要 输入静态IP,然后会话将继续,如下图所示在“Static IP Configuration”中 |
Step 3: Enable IPv6 [yes] | 是否使用ipv6? |
Step 4: Enable IPv6 autoconfig (SLAAC) on mgmt0 interface | 是否启用自动配置ipv6 |
Step 5: Use DHCPv6 on mgmt0 interface? [yes] | 是否启用dhcp自动配置ipv6 |
Step 6: Admin password (Press <Enter> to leave unchanged)? <new_password> | 设置管理员密码 |
Step 7: Confirm admin password? <new_password> (this step only happens if you change the password) | 再次输入密码进行确认 |
Step 9: HA Chassis Management IP netmask? (Example: [255.255.255.0]) | 执行此步骤以配置IPv4 网络掩码。 如果要接受默认值,请键入“yes” 然后按<Enter>。 否则,请输入所需的IPv4网络掩码框 |
Step 10: HA Chassis IPv6 address? (Example: [fdfd:fdfd:7:145::1000:4814]) | 执行此步骤以配置IPv6。 如果要接受默认值,请键入“yes” 然后按<Enter>。 否则,请输入所需IPv6 |
IP Zeroconf Configuration
Static IP Configuration
2.2.4 查看交换机管理IP
switch # show interfaces mgmt0
Interface mgmt0 status:
Comment :
Admin up : yes
Link up : yes
DHCP running : yes
IP address : 10.12.67.34
Netmask : 255.255.0.0
IPv6 enabled : yes
Autoconf enabled: no
Autoconf route : yes
Autoconf privacy: no
DHCPv6 running : no
IPv6 addresses : 1
IPv6 address:
fe80::268a:7ff:fe53:3d8e/64
Speed : 1000Mb/s (auto)
Duplex : full (auto)
Interface type : ethernet
Interface source: physical
MTU : 1500
HW address : 00:02:c9:11:a1:b2
Rx:
11700449 bytes
55753 packets
0 mcast packets
0 discards
0 errors
0 overruns
0 frame
Tx:
5139846 bytes
28452 packets
0 discards
0 errors
0 overruns
0 carrier
0 collisions
1000 queue len
2.2.4 使用ssh登录交换机
# ssh -l <username> <ip_address>
Mellanox MLNX-OS Switch Management
Password:
三、交换机管理
3.1 InfiniBand 子网管理器
InfiniBand子网管理器(SM)是在系统中运行的集中式实体。SM适用网络流量相关配置,如QoS、路由、到结构设备的分区。可以通过CLI/WebUI查看和配置子网管理器参数。每个子网需要一个子网管理器,用于发现、激活和管理子网。每个网络都需要在系统本身(基于系统)或
在连接到结构的节点之一上(基于主机)。
建议对任何单个结构使用不超过两个子网管理器。
系统上运行的InfiniBand子网管理器最多支持2048个节点。如果超过2048个节点,您可能需要购买Mellanox的Unified Fabric Manager(UFM®)软件包。每个子网需要一个子网管理器来发现、激活和管理子网。每个网络都需要在系统本身(基于系统)或在连接到结构的节点之一上(基于主机)。子网管理器(OpenSM)将本地标识符(LID)分配给连接到结构的每个端口,并且基于所分配的LID来开发路由表。使用OFED软件包的典型安装将在系统启动时运行OpenSM子网管理器
在加载驱动器之后。这种自动OpenSM驻留在内存中,并扫描结构大约每5秒为新适配器添加一次到子网路由表中。
3.2 更新软件
NVIDIA网站提供交换机软件和固件更新。检查您的当前版本与NVIDIA网站上的版本是否相同。
使用CLI或GUI执行软件升级。欲了解更多信息,请参阅Switch Software中的“升级MLNX-OS®软件”一节。
更新固件有两种方法
第一种:(典型)带内,通过电缆将服务器与交换机端口连接起来,并通过交换机网络端口进行带内信号传输。
第二种:非典型)通过交换机的I²C端口,使用NVIDIA MTUSB-1设备连接到一端连接到服务器的USB端口,另一端连接到交换机的I²C端口。
固件更新通常应该在带内进行。有意使用musb -1设备对于调试或固件损坏的情况,应由NVIDIA fae或支持部门进行工程师,或经过培训的用户在客户的现场。
3.2.1 通过带内更新固件
1)获取需要升级的交换机lid
运行命令ibnetdiscover并搜索以单词“Switch”开头的行。表示系统的GUID。
将显示的LID记录(十进制数字)。
2)运行以下命令升级
# flint -d <device> q#
四、交换机端口说明
交换机支持以下接口:
ib数据接口- InfiniBand
1个10/100/1000Mb 以太网管理口(RJ45)*
1个USB 端口 (USB Type A)*
1个RS232 串口 (RJ45)**
1个I2C 端口*
1个重置按钮
端口状态指示灯
4.1 数据接口
每个OSFP端口由2个逻辑ib端口组成,可以通过OSFP线缆连接连接器为40/56/100/200/400 Gb/s。该系统提供8类(17W) OSFP112收发器支持。
4.1.1 连接速度
ib速率由ib协议自动调节。NVIDIA系统支持QDR/FDR/EDR/HDR / NDR InfiniBand。
- FDR是ib数据速率,4X端口每条通道的比特率为14.0625Gb/s采用64b/66b编码,有效带宽为56.25Gb/s。
- EDR是一种InfiniBand数据速率,其中4X端口的每个通道运行25Gb/s的比特率64b/66b编码,产生100Gb/s的有效带宽。
- HDR是一种InfiniBand数据速率,其中4X端口的每个通道运行50Gb/s的比特率64b/66b编码,得到200Gb/s的有效带宽。
- NDR是InfiniBand数据速率,其中4X端口的每条通道运行100Gb/s的比特率64b/66b编码,得到400Gb/s的有效带宽。
五、交换机led指示灯状态说明
5.1 4种指示灯说明
系统的led是硬件事件通知和故障排除的重要工具。
名称 | 描述 | 正常情况 | |
系统状态指示灯 | 显示系统运行状况 | 绿色/闪烁绿色(引导) | |
电源指示灯 | 显示电源模块健康状态 | 绿色 | |
风扇指示灯 | 显示风扇健康状态 | 绿色 | |
设备定位灯 | 可通过CLI命令点亮 | 默认关闭 |
5.2 使用命令点亮设备定位灯
点亮UID定位灯
switch (config) # led MGMT uid on
查看UID定位灯状态
switch (config) # show leds
Module LED Status
--------------------------------------------------------------------------
MGMT UID Blues
禁用或关闭交换机系统的UID LED
switch (config) # led MGMT uid off
5.3 端口指示灯说明
每次按下通道选择按钮,端口led显示屏将切换到不同的状态,
如下:通道选择按钮状态
状态 | led状态 | 端口led状态 |
0 (Default) | 关闭 | 4x || 2xA |
1 | 打开 | 4x || 2xB |
端口指示灯状态
led状态 | 描述 | 建议操作 |
不亮 | 链接已断开 | 检查ib线缆 |
绿色常亮 | 链路正常,没有数据传输 | |
绿色闪烁 | 链路链接正常且有数据传输 | |
琥珀色 | 物理线路已连接 | 等待逻辑链路上升。检查 SM是开启。 |
闪烁琥珀色 | 链接有问题 | 检查SM服务是否启动 |
六、故障排查
问题 | 现象 | 原因及解决方法 |
LEDs | 系统状态指示灯闪烁 超过5分钟 | 原因:MLNX-OS软件无法正常启动,只能启动固件正在运行。 处理方法:通过console口连接系统,并检查软件状态。您可能需要联系FAE,如果MLNX-OS软件无法正常加载。 |
系统状态指示灯呈琥珀色 | 原因 关键系统故障(CPU错误、固件错误)、温度过高 解决方案 检查环境条件(室温) | |
风扇状态指示灯呈琥珀色 | 原因:可能的风扇问题 解决方案 检查风扇是否已完全插入且没有任何东西阻挡气流 如果需要,请更换风扇FRU | |
电源状态指示灯为 琥珀色的 | 原因:可能的PSU问题 解决方案 检查/更换电源线 如果需要,请更换PSU | |
活动LED则没有 点亮(InfiniBand) | 确保有SM在结构中运行。 | |
系统引导失败 | 最后一次软件升级 在基于x86的系统上失败 | 解决方案 将RS232接口(控制台)连接到笔记本电脑上。 按下系统的重置按钮。 在系统引导过程中,按下向上箭头或向下箭头键。 GRUB菜单将出现。例如 按箭头键选择要引导的上一个映像,然后 选择合适的图像。 |
七、交换机规格参数
QM9700和QM9790技术规格
功能 | 值 | |
Mechanical:机箱 | Size: | 1.7” (H) x 17.2” (W) x26” (D), 43.6mm (H) x 438mm (W) x 660mm (D) |
Mounting: | 19” rack mount | |
Weight: | 1 PSU: 13.6 kg 2 PSUs: 14.8 kg | |
Speed: | 40, 56, 100, 200, 400 Gb/s per port | |
Connector cage: | 32 OSFP | |
Environmental:环境要求 | Temperature:温度 | Operational: Forward air flow: 0° to 35°C Reverse air flow: 0° to 40°C |
Non-Operational: -40° to 70°C | ||
Humidity:湿度 | Operational: 10%-85% non-condensing Non-Operational: 10%-90% non-condensing | |
Altitude:海拔高度 | 3050m | |
Noise level:噪音等级 | 78.4dBA at room temperature | |
Regulatory:监管 | Safety: 安全 | CB, cTUVus, CE, CU, S-Mark |
EMC: | EMC: CE, FCC, VCCI, ICES, RCM, WW: CQC, BSMI, KCC, TEC, ANATEL | |
RoHS: | RoHS compliant | |
power:电源 | Input Voltage: | 1x/2x, 200-240Vac, 10A, 50/60Hz For HVDC: 200-300 VDC 9.5A (for China only) |
Global Power Consumption:最大功耗 | QM9700: Typical power with passive cables (ATIS): 747W Max power with active cables: 1,720W QM9790 Typical power with passive cables (ATIS): 640W Max power with active cables: 1,610W | |
Main Devices主机 | CPU (in QM9700 only): | Intel® Core™ i3 Coffee Lake |
Switch: | NVIDIA Quantum™-2 IC | |
Throughput:吞吐量 | Switching: | 25.6Tbps |