可以从几个角度去定位这个问题:
1.逐层dump 下1core和4core逐层的情况,看结果是否一致
2.如第一步结果一致,可能是后处理算子导致,可以去掉后处理算子,直接用CPU做NMS
逐层dump 可以参看《寒武纪 PyTorch 用户手册》10.2 精度调试工具
请登录后评论