切片 切片 切片 切片 切片 切片 切片 切片 切片 切片 切片 编组 3 切片 切片 路径 2 download 工具 配置对比 手册 切片 切片
使用ThinkSystem SD650、SD650 V2、SD650 V3 和 ConnectX-6 HDR、ConnectX-7 NDR SharedIO 时的注意事项 (HT510888)
适用机型:服务器 / ThinkSystem
知识编号:4192782023-12-15
催更新

问题描述

 Mellanox ConnectX-6 HDR / Nvidia ConnectX-7 NDR 适配器实现 SharedIO,也称为NVidia /Mellanox 多主机技术。借助 SharedIO,将NVidia /Mellanox 虚拟协议互连® (VPI) 适配器安装在一台ThinkSystem SD650 或 SD650 V2 或 SD650 V3 服务器的插槽中,并将辅助适配器安装在同一托盘中相邻服务器的插槽中。一根电缆连接两个适配器。结果是两台服务器共享 VPI 适配器的网络连接,从而显著节省了适配器成本和交换机端口成本。

在安装了共享 I/O HDR/NDR 适配器的ThinkSystem SD650 或 SD650 V2 或 SD650 V3 服务器上工作时,需要考虑某些注意事项。

有关NVidia /Mellanox ConnectX-6 HDR 和 ConnectX-7 NDR 适配器以及ThinkSystem SD650 或 SD650 V2 或 SD650 V3 服务器的更多信息,请访问以下 URL:

影响配置

该系统可以是以下任何Lenovo服务器:

  • Lenovo Client Site Integration Kit, machine type 7X74, any model
  • Lenovo NeXtScale n1200 DWC Enclosure, Type 5468, any model, any any model
  • Lenovo Scalable Infrastructure (LeSI) Cluster, type 1410, any model DSS
  • ThinkSystem DW612/DW612S DWC Enclosure, Type 7D1L, any model
  • ThinkSystem SD650 Dual Node WCT Tray, any model 7X58
  • ThinkSystem SD650 v2, Type 7D1M, any model
  • ThinkSystem SD650 v3, Type 7D7M, any model

系统配置有以下一项或多项Lenovo选件:

  • ThinkSystem Mellanox ConnectX-6 HDR/200GbE QSFP56 1-port PCIe VPI Adapter (SharedIO) WCT, Option 4C57A14925, any model
  • ThinkSystem Mellanox HDR/200GbE 2x PCIe Aux Kit, Option 4C57A14179, any model
  • ThinkSystem Mellanox ConnectX-6 HDR/200GbE QSFP56 1-Port PCIe 4 VPI Adapter (SharedIO) DWC, 4XC7A86672, any model
  • ThinkSystem NVIDIA ConnectX-7 NDR OSFP400 1-port PCIe Gen5 x16 InfiniBand Adapter (SharedIO) DWC, 4XC7A86670, any model
  • ThinkSystem NVIDIA ConnectX-7 NDR200/HDR QSFP112 2-port PCIe Gen5 x16 InfiniBand Adapter (SharedIO) DWC, 4XC7A86669, any model

本技巧并非特定于软件。

系统出现上述症状。

 

解决方案

 

开机

当使用共享 I/O 适配器启动节点时,从 A/C 关闭状态或虚拟重新安装后,主节点必须在辅助节点之前启动。建议等到主节点完成 POST 后再尝试给辅助节点加电,或者理想情况下,等到主节点完成操作系统启动。如果不等待,将导致辅助节点未获得电源权限,因此辅助节点将无法启动。辅助节点的系统事件日志 (SEL) 还将报告以下任一事件。


Module/Board - SharedIO fail Asserted

Sensor Aux/Pri SharedIO has transitioned to critical from a less severe state.

 

关机或重启

当关闭或重新启动具有共享 I/O 适配器的节点时,辅助节点应始终在主节点之前关闭。如果主节点适配器没有通电,辅助适配器就无法运行。没有适当的机制可以防止主节点在辅助节点仍处于通电状态时断电,因此密切关注节点断电的顺序非常重要。未能首先关闭辅助节点电源将导致辅助节点上的系统事件日志 (SEL) 中报告故障,或者在某些情况下,一旦辅助适配器断电且不再可见,就会出现软件 NMI。

Slot/Connector - PCIe 1 - Fault - PCIe 1

Critical interrupt - NMI State - Software NMI

 

其他考虑因素

安装共享 I/O 适配器时,主适配器应安装在机箱右侧,辅助适配器应安装在左侧。

要更新共享 I/O 适配器上的固件,请首先关闭辅助节点的电源。将代码应用到主卡后,关闭主节点电源并重新启动。操作系统启动后,启动辅助节点。

如果在任何时候由于不正确的断电顺序而在系统事件日志中生成 PCI 总线故障或软件 NMI,则可以执行虚拟重置来清除该事件。

 

参考链接:

Considerations when using ThinkSystem SD650, SD650 V2, SD650 V3 and ConnectX-6 HDR, ConnectX-7 NDR SharedIO - Lenovo ThinkSystem and Lenovo Server - Lenovo Support US

 

 

0
知识有用,就点一下~
0
收藏 :
分享 :