问题描述
Mellanox ConnectX-6 HDR / Nvidia ConnectX-7 NDR 适配器实现 SharedIO,也称为NVidia /Mellanox 多主机技术。借助 SharedIO,将NVidia /Mellanox 虚拟协议互连® (VPI) 适配器安装在一台ThinkSystem SD650 或 SD650 V2 或 SD650 V3 服务器的插槽中,并将辅助适配器安装在同一托盘中相邻服务器的插槽中。一根电缆连接两个适配器。结果是两台服务器共享 VPI 适配器的网络连接,从而显著节省了适配器成本和交换机端口成本。
在安装了共享 I/O HDR/NDR 适配器的ThinkSystem SD650 或 SD650 V2 或 SD650 V3 服务器上工作时,需要考虑某些注意事项。
有关NVidia /Mellanox ConnectX-6 HDR 和 ConnectX-7 NDR 适配器以及ThinkSystem SD650 或 SD650 V2 或 SD650 V3 服务器的更多信息,请访问以下 URL:
- https://lenovopress.com/lp1195-mellanox-connectx-6-hdr-adapters
- https://lenovopress.com/lp0636-thinksystem-sd650-direct-water-cooled-server-xeon-sp-gen-1
- https://lenovopress.lenovo.com/lp1395-thinksystem-sd650-v2-server
- https://lenovopress.lenovo.com/lp1603-thinksystem-sd650-v3-server
- https://lenovopress.lenovo.com/lp1693-thinksystem-nvidia-connectx-7-ndr200-infiniband-qsfp112-adapters
影响配置
该系统可以是以下任何Lenovo服务器:
- Lenovo Client Site Integration Kit, machine type 7X74, any model
- Lenovo NeXtScale n1200 DWC Enclosure, Type 5468, any model, any any model
- Lenovo Scalable Infrastructure (LeSI) Cluster, type 1410, any model DSS
- ThinkSystem DW612/DW612S DWC Enclosure, Type 7D1L, any model
- ThinkSystem SD650 Dual Node WCT Tray, any model 7X58
- ThinkSystem SD650 v2, Type 7D1M, any model
- ThinkSystem SD650 v3, Type 7D7M, any model
系统配置有以下一项或多项Lenovo选件:
- ThinkSystem Mellanox ConnectX-6 HDR/200GbE QSFP56 1-port PCIe VPI Adapter (SharedIO) WCT, Option 4C57A14925, any model
- ThinkSystem Mellanox HDR/200GbE 2x PCIe Aux Kit, Option 4C57A14179, any model
- ThinkSystem Mellanox ConnectX-6 HDR/200GbE QSFP56 1-Port PCIe 4 VPI Adapter (SharedIO) DWC, 4XC7A86672, any model
- ThinkSystem NVIDIA ConnectX-7 NDR OSFP400 1-port PCIe Gen5 x16 InfiniBand Adapter (SharedIO) DWC, 4XC7A86670, any model
- ThinkSystem NVIDIA ConnectX-7 NDR200/HDR QSFP112 2-port PCIe Gen5 x16 InfiniBand Adapter (SharedIO) DWC, 4XC7A86669, any model
本技巧并非特定于软件。
系统出现上述症状。
解决方案
开机
当使用共享 I/O 适配器启动节点时,从 A/C 关闭状态或虚拟重新安装后,主节点必须在辅助节点之前启动。建议等到主节点完成 POST 后再尝试给辅助节点加电,或者理想情况下,等到主节点完成操作系统启动。如果不等待,将导致辅助节点未获得电源权限,因此辅助节点将无法启动。辅助节点的系统事件日志 (SEL) 还将报告以下任一事件。
Module/Board - SharedIO fail Asserted
Sensor Aux/Pri SharedIO has transitioned to critical from a less severe state.
关机或重启
当关闭或重新启动具有共享 I/O 适配器的节点时,辅助节点应始终在主节点之前关闭。如果主节点适配器没有通电,辅助适配器就无法运行。没有适当的机制可以防止主节点在辅助节点仍处于通电状态时断电,因此密切关注节点断电的顺序非常重要。未能首先关闭辅助节点电源将导致辅助节点上的系统事件日志 (SEL) 中报告故障,或者在某些情况下,一旦辅助适配器断电且不再可见,就会出现软件 NMI。
Slot/Connector - PCIe 1 - Fault - PCIe 1
Critical interrupt - NMI State - Software NMI
其他考虑因素
安装共享 I/O 适配器时,主适配器应安装在机箱右侧,辅助适配器应安装在左侧。
要更新共享 I/O 适配器上的固件,请首先关闭辅助节点的电源。将代码应用到主卡后,关闭主节点电源并重新启动。操作系统启动后,启动辅助节点。
如果在任何时候由于不正确的断电顺序而在系统事件日志中生成 PCI 总线故障或软件 NMI,则可以执行虚拟重置来清除该事件。
参考链接: