打开微信,使用扫一扫进入页面后,点击右上角菜单,
点击“发送给朋友”或“分享到朋友圈”完成分享
原文链接:https://www.zhihu.com/question/496489021/answer/2807985118
1、MLU 370 产品介绍
1 产品综述
MLU370 加速卡基于寒武纪思元 370 芯片
思元370基于7nm制程工艺,是寒武纪首款采用chiplet(芯粒)技术的AI芯片
集成了390亿个晶体管
最大算力高达256TOPS(INT8),是寒武纪第二代产品思元270算力的2倍。
凭借寒武纪最新智能芯片架构MLUarch03,思元370实测性能表现更为优秀。
国内第一款公开发布支持LPDDR5内存的云端AI芯片,内存带宽是上一代产品的3倍,访存能效达GDDR6的1.5倍。
搭载MLU- ™多芯互联技术,在分布式训练或推理任务中为多颗思元370芯片提供高效协同能力。
2 产品规格及形态
不同点:
算力不同,X4和X8相对于S4, 算力会有提升;
内存容量和带宽不同,X8相对于S4和X4的内存容量和带宽均提升了一倍
形态不同,S4是半高半长单宽,X4是全高全长单宽,X8为全高全长双宽
功耗不同,S4是75W, 直接通过主板的pcie接口供电即可, X4和X8分别为150W和250W,需要额外供电才可以支持
另外 MLU370-X8 板卡上有两个思元370芯片
2、MLU370 加速卡安装及使用
1 安装要求
1)插卡方向
MLU370 - S4/X4/X8 均支持双向进风,因此支持插卡在机箱的前端及尾端:
注:大多数情况下是插在机箱尾端
2)供电要求
由于 PCIE 最高提供 75W 的电源功率,因此 370-X4 和 370-X8 均需要额外供电,这两种板卡均提供一个 8pin 的 CPU 电源插座接口,如下图所示:
用户可以直接使用服务器内的 8pin CPU 电源插头连接到 MLU370-X4/X8 智能加速卡的外接电源插座上,也可以使用 1 转 2 的转接电缆,连接服务器上的 8pin PCIE 电源插头。
其中,电源接口的输入电压与电流规范见下表:
3)板卡互联
MLU370-X8 智能加速卡支持卡间互联,通过桥接卡实现智能加速卡每颗芯片间总带宽为200GB/s 双向总带宽
根据服务器的具体规格,可支持 2 卡桥接及 4 卡桥接,灵活实现不同机型的适配支持。如下图所示:
4)散热要求
MLU370三款板卡的工作温度、降频温度和断电温度分别如下表所示,
到达降频温度时,芯片会自动降频到当前频率的50% ;
三款板卡的断电结温均为95度,芯片温度到达95度时会自动断电,以此来达到保护芯片的目的。因此要保证板卡在机器内部的散热。
注:对于没有做过 BMC 适配的机型,在跑业务应用时要手动设置 BMC 风扇转速为100%,避免出现超温降频和断电的情况。
2 安装介绍
1)370-S4
370-S4为半高半长卡,因此可以支持在2U机型上横插和竖插,也可在4U机型上竖插。横插时,需要更换长挡片,竖插时则需要使用短挡片,如下图
注:2U机型竖插时需要更换为短挡片。
2)370-X4
370-X4为全高全长卡,因此在2U 机型上不支持竖插,可支持2U 机型横插,4U 机型竖插。同时需要连接供电线。如下图
3)370-X8
370-X8为双宽卡,因此在2U机型上无法使用桥接卡,4U机型上才会使用桥接卡。如下图,为370-X8在4U机器上8卡竖插图,注意安装桥接卡和供电线
3 安装验证
1)方法一:在 OS 下通过 lspci 可以查看 370 板卡信息,具体命令如右图所示:
其中:
cabc:cambricon card,是寒武纪产品的 Vendor ID
0370:MLU370 的 Device ID
Sub-System ID 对应关系为:
0053:370-S4
0054:370-X8
0057:370-X4
LnkCap 里 Speed 和 Width 为板卡额定速率带宽
LnkSta 展示的板卡的实际速率带宽,实际速率带宽受 CPU 平台和 PCIE 插槽影响。
同时前面提到,一张370-X8集成了两颗MLU370芯片,因此1张X8卡在os下会显示两个BDF信息
2)方法二:在已进行过 BMC 适配的服务器,可以通过 BMC 来查看 370 板卡信息,如下图所示:
4 固件更新
1) 首先检查拿到的固件升级工具,比对MD5值和提供的是否一致。
2) 检查MLU370 驱动是否安装,若安装则需要使用rmmod命令卸载掉
3) 使用固件升级工具对板卡进行固件升级,具体命令为 sudo ./MLU370_FLASH_TOOL* -i 0 -u 1 其中 -i 后的参数表示设备号。下图命令表示对设备 Device 0 进行固件升级
4) 固件更新后需要重启机器生效,查看固件版本命令 sudo ./MLU370_FLASH_TOOL* -i 0 -c 1 其中 -i 后的参数表示设备号,如下图,表示对设备Device 0进行固件版本检查。
5 错误排查
1) 检测 pcie 的信息发现无板卡信息,如下图:
排查方法:
检测板卡是否上电以及板卡温度是否过高;
检测板卡是否插牢固,有无松动;
PCIe 插槽是否有灰尘,若有灰尘则需要清理灰尘;
PCIe 插槽是否正常,可以尝试更换插槽,看板卡是否可识别。
2) 在 OS 下,查看 MLU370 板卡 lspci 信息, 内存空间显示为 ignored,如下图:
排查方法:
在BIOS下打开 Above 4G Decoding 选项,路径一般为 Advanced-PCI Subsystem Settings,如下图:
对于BIOS下没有 Above 4G Decoding选项的,在系统下将PCIe资源重分配,将 pci=realloc=on 传⼊到 linux 内核,具体方式如下:
执行 sudo vi /boot/efi/EFI/centos/grub.cfg
找到 quiet.UTF·8 对应的行,在行末添加pci=realloc=on
修改保存后 reboot 机器,如下图:
说明:详细内容可见对应文档。
热门帖子
精华帖子