打开微信,使用扫一扫进入页面后,点击右上角菜单,
点击“发送给朋友”或“分享到朋友圈”完成分享
如题,想请教一下 torch_mlu 后端算子分发相关的问题。以张量对位相加为例,pytorch profiler 可以看到 aten::add 被分发到了 cnnlOpTensor 算子,然后调起了
MLUOpTensorElementParam110ThreePipeline;而单独在 .cpp 文件中使用 cnnlOpTensor 时,cnperf 可以看到该算子最终是被分发到了 MLUOpTensorElementDefault,性能上也与 torch_mlu 有差异。有什么参数可以指导 CNNL 调用性能更高的优化 mlu 算子吗?还是说 torch_mlu 后端有相关的 codegen 机制?
热门帖子
精华帖子