×

签到

分享到微信

打开微信,使用扫一扫进入页面后,点击右上角菜单,

点击“发送给朋友”或“分享到朋友圈”完成分享

370产品介绍、安装及使用指南(建议收藏) 小飞人2023-07-04 13:57:03 回复 查看 干货资源
370产品介绍、安装及使用指南(建议收藏)
分享到:

原文链接:https://www.zhihu.com/question/496489021/answer/2807985118


1、MLU 370 产品介绍

1 产品综述

MLU370 加速卡基于寒武纪思元 370 芯片



  • 思元370基于7nm制程工艺,是寒武纪首款采用chiplet(芯粒)技术的AI芯片

  • 集成了390亿个晶体管

  • 最大算力高达256TOPS(INT8),是寒武纪第二代产品思元270算力的2倍。

  • 凭借寒武纪最新智能芯片架构MLUarch03,思元370实测性能表现更为优秀。

  • 国内第一款公开发布支持LPDDR5内存的云端AI芯片,内存带宽是上一代产品的3倍,访存能效达GDDR6的1.5倍。

  • 搭载MLU- ™多芯互联技术,在分布式训练或推理任务中为多颗思元370芯片提供高效协同能力。

 

 

2 产品规格及形态

 

 

不同点:

  • 算力不同,X4和X8相对于S4, 算力会有提升;

  • 内存容量和带宽不同,X8相对于S4和X4的内存容量和带宽均提升了一倍

  • 形态不同,S4是半高半长单宽,X4是全高全长单宽,X8为全高全长双宽

  • 功耗不同,S4是75W, 直接通过主板的pcie接口供电即可, X4和X8分别为150W和250W,需要额外供电才可以支持

  • 另外      MLU370-X8 板卡上有两个思元370芯片


2、MLU370 加速卡安装及使用


1 安装要求


1)插卡方向

MLU370 - S4/X4/X8 均支持双向进风,因此支持插卡在机箱的前端及尾端:

 

 

注:大多数情况下是插在机箱尾端


2)供电要求


由于 PCIE 最高提供 75W 的电源功率,因此 370-X4 和 370-X8 均需要额外供电,这两种板卡均提供一个 8pin 的 CPU 电源插座接口,如下图所示:

 

 

用户可以直接使用服务器内的 8pin CPU 电源插头连接到 MLU370-X4/X8 智能加速卡的外接电源插座上,也可以使用 1 转 2 的转接电缆,连接服务器上的 8pin PCIE 电源插头。

其中,电源接口的输入电压与电流规范见下表:

 

 

3板卡互联

  • MLU370-X8 智能加速卡支持卡间互联,通过桥接卡实现智能加速卡每颗芯片间总带宽为200GB/s 双向总带宽

  • 根据服务器的具体规格,可支持 2 卡桥接及 4 卡桥接,灵活实现不同机型的适配支持。如下图所示:

 


 

 

4)散热要求

MLU370三款板卡的工作温度、降频温度和断电温度分别如下表所示,

  • 到达降频温度时,芯片会自动降频到当前频率的50% ;

  • 三款板卡的断电结温均为95度,芯片温度到达95度时会自动断电,以此来达到保护芯片的目的。因此要保证板卡在机器内部的散热。

 


注:对于没有做过 BMC 适配的机型,在跑业务应用时要手动设置 BMC 风扇转速为100%,避免出现超温降频和断电的情况。


2 安装介绍


1)370-S4

370-S4为半高半长卡,因此可以支持在2U机型上横插和竖插,也可在4U机型上竖插。横插时,需要更换长挡片,竖插时则需要使用短挡片,如下图

 

 

注:2U机型竖插时需要更换为短挡片。

2)370-X4

370-X4全高全长卡,因此在2U 机型上不支持竖插,可支持2U 机型横插,4U 机型竖插。同时需要连接供电线。如下图

 

 

3)370-X8

370-X8为双宽卡,因此在2U机型上无法使用桥接卡,4U机型上才会使用桥接卡。如下图,为370-X8在4U机器上8卡竖插图,注意安装桥接卡和供电线

 

 

3 安装验证

1)方法一:在 OS 下通过 lspci 可以查看 370 板卡信息,具体命令如右图所示:

 

 

其中:

  • cabc:cambricon      card,是寒武纪产品的 Vendor ID

  • 0370:MLU370 的 Device ID

  • Sub-System ID 对应关系为:

    • 0053:370-S4

    • 0054:370-X8

    • 0057:370-X4

  • LnkCap 里 Speed 和 Width 为板卡额定速率带宽

  • LnkSta 展示的板卡的实际速率带宽,实际速率带宽受 CPU 平台和 PCIE 插槽影响。

 

同时前面提到,一张370-X8集成了两颗MLU370芯片,因此1张X8卡在os下会显示两个BDF信息

 

 

2)方法二:在已进行过 BMC 适配的服务器,可以通过 BMC 来查看 370 板卡信息,如下图所示:

 

 

4 固件更新

1) 首先检查拿到的固件升级工具,比对MD5值和提供的是否一致。

 


2) 检查MLU370 驱动是否安装,若安装则需要使用rmmod命令卸载掉

 

3) 使用固件升级工具对板卡进行固件升级,具体命令为 sudo ./MLU370_FLASH_TOOL* -i 0 -u 1 其中 -i 后的参数表示设备号。下图命令表示对设备 Device 0 进行固件升级

 

4) 固件更新后需要重启机器生效,查看固件版本命令 sudo ./MLU370_FLASH_TOOL* -i 0 -c 1 其中 -i 后的参数表示设备号,如下图,表示对设备Device 0进行固件版本检查。

 


5 错误排查

1) 检测 pcie 的信息发现无板卡信息,如下图:

 


排查方法:

  • 检测板卡是否上电以及板卡温度是否过高;

  • 检测板卡是否插牢固,有无松动;

  • PCIe 插槽是否有灰尘,若有灰尘则需要清理灰尘;

  • PCIe 插槽是否正常,可以尝试更换插槽,看板卡是否可识别。

2) 在 OS 下,查看 MLU370 板卡 lspci 信息, 内存空间显示为 ignored,如下图:

 

 

排查方法:

  • 在BIOS下打开 Above 4G Decoding 选项,路径一般为      Advanced-PCI Subsystem Settings,如下图:

 

 

  • 对于BIOS下没有 Above 4G Decoding选项的,在系统下将PCIe资源重分配,将 pci=realloc=on 传到 linux 内核,具体方式如下:

  1. 执行 sudo vi      /boot/efi/EFI/centos/grub.cfg

  2. 找到 quiet.UTF·8 对应的行,在行末添加pci=realloc=on

  3. 修改保存后 reboot 机器,如下图:

 


说明:详细内容可见对应文档。

 


版权所有 © 2024 寒武纪 Cambricon.com 备案/许可证号:京ICP备17003415号-1
关闭