打开微信,使用扫一扫进入页面后,点击右上角菜单,
点击“发送给朋友”或“分享到朋友圈”完成分享
包括但不限于:
a、 必要的日志:
1)板卡的基本信息,型号、SN号、固件版本号。
2)BMC日志,如板卡近段时间的温度变化曲线信息和对应的风扇转速变化。
3)服务器dmesg日志,有无与板卡及Cambricon字段相关联的Error信息。
4)lspci日志,检查服务器板卡在位情况。
5)cnmon日志,检查板卡工作状态。
b、 板卡运行环境:服务器的基本信息,如基本硬件配置,BIOS版本,重点确认是否做过适配。
c、 故障前的操作:发生故障前整机和板卡的工作状态,故障发生前有哪些操作。
d、 其它:情况允许的情况下,用手摸下,排查信息传达错误的情况。
非必现问题和信息日志没有第一时间收集完整的情形建议在原环境复现超温问题。
问题必现的情形和其它情况可选择性跳过本步骤。
本环节通过前两环节必要信息收集和问题复现情况,可对问题点做针对性判定并给出解决方案。
此处批量问题只出现一级多卡或多机多卡超温现象,已适配过的服务器散热方案是经过验证的,此时出现板卡批量超温问题,大概率是使用层面的问题,请从以下方面重点检查和解决:
1) 固件版本号正确性。请检查板卡固件、服务器BMC和BIOS版本号是否与适配清单一致,如果不是请对齐。
2) 服务器内部风道和外部出风口有无遮挡,如果有请进行整理,确保风道无障碍物。
3) 服务器工作环境温度,如机房的温度是否过高,建议在温度。
4) 服务器配件故障,如主板、风扇等,可以通过登录BMC检查故障日志,做针对性处理。
5) 板卡批量缺陷,如超温板卡做交叉验证时,发现问题随板卡走,可初步判断是板卡缺陷,建议将故障板卡交由产品部处理。
6) 针对无法稳定现问题和上述方式无法解决的,收集必要信息,联系我们协同处理。
交叉验证指:故障板卡与工作状态正常的板卡做位置上的交换,可以是同台机器的不同槽位,也可以是不同机器的相同槽位(不同槽位也可)
1)交叉验证后,发现该故障板卡交换到同台机器其它槽位时仍有超温现象,可初步判断该板卡故障,建议更换板卡。
1)交叉验证后,发现超温板卡换到该机器其它槽位可稳定工作且温度正常,而之前正常的板卡换到该槽位出现超温问题,可初步判断是槽位或者主板问题,同时可检查该槽位所在的风扇是否温度工作(可肉眼检查电路、可登录BMC检查故障日志),建议联系原厂协助处理。
通常情况下,服务器适配都会对散热问题做针对性处理,比如服务器内部风扇可根据板卡温度自适应调整转速,将热量排出。未做适配的服务器很可能出现因为散热导致板卡超温的现象,建议出现超温问题可在散热处理方面重点关注。
1) 建议调整风扇转速到最大值,看是否解决板卡超温问题,如果无法解决,建议选用适配过的服务器。
2) 问题发生时建议手摸或者借助仪器检测板卡实际温度,以排查温度信息传达错误的情况。
3) 不排除板卡自身缺陷,建议用交叉验证的方式进行检测,具体方法参照3.1.2。
板卡超温的原因主要三大类:产品缺陷(板卡或服务器),已适配使用不当和未适配,出现问题时大家可按照以上三个方向逐步排查。
热门帖子
精华帖子