×

签到

分享到微信

打开微信,使用扫一扫进入页面后,点击右上角菜单,

点击“发送给朋友”或“分享到朋友圈”完成分享

MLU370—Cambricon Pytorch应用【FAQ合集】 三叶虫2022-11-18 17:39:33 回复 查看 技术答疑
MLU370—Cambricon Pytorch应用【FAQ合集】
分享到:

直播课简介:

Cambricon   Pytorch应用实战——基于resnet50的训练和推理

系统介绍Cambricon Pytorch与原生Pytorch的区别和联系以及如何适配原生Pytorch,并且现场演练resnet50的训练和推理实践技术


回看链接:

【MLU370系列开发实战直播课】Cambricon Pytorch应用实战_哔哩哔哩_bilibili

【MLU370系列开发实战直播课】Cambricon MagicMind编程技术实战_哔哩哔哩_bilibili

【MLU370系列开发实战直播课】BANG编程最佳实践系列——BANG 3.0 编程优化_哔哩哔哩_bilibili


Cambricon Pytorch应用【FAQ合集】

Q1:  MM Detection框架训练的模型可以直接转成离线模型吗,有简便方法吗?

A1: 可以,生成离线模型需要使用magicmind推理引擎。

 

Q2: MLU270可以用GPU2MLU.py脚本吗?

A2: 目前MLU270系列不支持,MLU300系列为训推一体加速卡,支持该脚本。

 

Q3: 新算法算子开发有样例吗?

A3: BANG实战课中有具体讲解。

 

Q4: MLU300系列,支持VIT模型吗?

A4: 支持,后续VIT模型会开放到gitee上,点击链接:modelzoo: Cambricon Modelzoo (gitee.com)

 

Q6: 请问使用MLU训练出来的模型的通用性怎么样?

A6: 通用性很好,和GPU训练出来的一样。

 

Q7: 可否详细讲讲MLU- 技术?

A7: 后续分布式相关的课程展开介绍。

 

Q9: jit.trace之后,推理用的是magicmind后端吗?

A9: 是的。

 

Q10: jit模式是否支持可变推理?

A10: 支持 在配置参数时变动即可。

 

Q11: MagicMind支持训练吗?

A11: MagicMind是寒武纪推出的推理加速引擎,是用来部署的,不支持训练。

 

Q14: 逐层和融合推理在精度上有差别?

A14: 没有精度的差别,可以具体观看本节视频课的实战环节,点击链接:MLU370系列开发实战直播课】Cambricon Pytorch应用实战_哔哩哔哩_bilibili

 

Q15: 支持yolov5的训练吗?

A15: 支持 寒武纪gitee上新了很多可供参考和一键运行的模型,点击链接:modelzoo: Cambricon Modelzoo (gitee.com)

 

Q16: Magicmind的模型可以快速部署吗?

A16: 可以通过pythonc++API进行快速部署。

 

Q17: MLU训练支持多机多卡吗?

A17: 支持,后续课程会讲到分布式训练。

 

Q18: 寒武纪的PyTorch是否支持自定义算子?

A18: 支持。

 

Q19: BANG语言和C/C++有什么区别啊? 上手难吗? 请问可以在哪试用?

A19: 是类C的编程语言,有C语言和cuda基础上手不难。开发者社区有试用申请。

 

Q20: Pytorch 支持什么版本?

A20: 目前支持PyTorch 1.61.9版本。

 

Q21: patch的代码是需要编译后才可以使用的吗?

A21: 是的。

 

Q22:请问3系列加速卡支持哪些计算精度类型?

A22: MLU370系列支持FP32FP16INT16INT8等,具体规格点击官网查看:思元370系列 - 寒武纪 (cambricon.com)

 

Q23: 请问分发的最小粒度是按算子吗?有没有按子图的?

A23: 一般来说是按算子粒度来分发。

 

Q24: magicmind的推理性能通常比cnnl更好是吗?

A24: 是的,使用了诸多融合、优化技术。

 

Q25: 训练是否可以使用jit模式?

A25: 不支持。

 

Q26: 如果推理遇到不支持的算子,怎么办?

A26: 可以通过做算子拼接、算子开发并PlugIn,或提到寒武纪社区反馈。

 

Q27: 寒武纪的pytroch是否支持自定义算子?

A27: 支持。

 

Q28: 寒武纪370MLU 的原理是什么?

A28: MLU 涉及分布式、多机多卡以及单机多卡的互联,在思元370应对多卡多芯并行任务时,提供更高效的并行效率。

 

Q30: gpu移植到mlu需要改动哪些?

A30: 主要是修改设备相关的改动,或者使用寒武纪提供的脚本工具。可以参考下图总结:

image.png


Q31: 使用torch_gpu2mlu.py这个脚本是不是就不用人工修改原生代码就可以移植到mlu了?

A31: 是的,理论上不需要人工修改了。

 

Q32: gpu2mlu.py,请问在哪里下载呢?

A32: 后续开放下载的软件栈中会带有。

 

Q33: 寒武纪SDK里转换工具是要对整个代码工程进行作用吗?还是只需要对训练入口文件?

A33: 对整个工程作用。

 

Q34: mlu进行单机多卡训练和单机单卡的训练有啥大的差别吗?

A34: 单机多卡的训练速度更快,接口上会有少许不同。关于分布式训练后续课程会介绍。

 

Q35: cnnl方式和融合方式做前向推理,精度会有差别吗?

A35: 没有差别。

 

Q36: 可以做量化推理吗?流程是怎样的?

A36: 支持量化,后续课程会讲到量化的使用。

 

Q37: trace之后,推理走的是magicmind后端吗?

A37: 是的。

 

Q38: 当前是否支持与GPU混插进行多卡异构训练?分别推理部署呢?

A38: 支持。

 

Q39: magicmind对大部分的网络都支持吗?或者说 使用了magicmind 是不是基本都可以比用cnnl推理更快?

A39: 是的,支持大部分经典的网络。是的,一般都比CNNL推理更快。

 

Q40: GPU上训练推理的model 转换到MLU上需要改动哪些工具?

A40: 寒武纪的软件栈自带相关的工具。





版权所有 © 2025 寒武纪 Cambricon.com 备案/许可证号:京ICP备17003415号-1
关闭