看起来是系统奔溃了,需要抓取 dmesg log 进行分析
你好!1、在测试过程中,可以关注MLU卡的温度,通过cnmon命令查看;2、排查问题时,可以逐步屏蔽pipeline中的模块,查看是哪些模块导致异常现象。
感谢回复!
通过cnmon查看死机时温度48C,应该不是温度高所致;
已经是最小代码,单线程内存不断造数据送入AI。
还是会出现死机问题。
请登录后评论